袁利國,崔恒武,曹詩杰
(1. 海軍北海艦隊裝備部, 山東 青島 266071;2. 青島92001部隊司令部, 山東 青島 266011;3. 海軍工程大學 動力工程學院,湖北 武漢 430033)
艦船推進系統集成管理知識挖掘方法研究
袁利國1,崔恒武2,曹詩杰3
(1. 海軍北海艦隊裝備部, 山東 青島 266071;2. 青島92001部隊司令部, 山東 青島 266011;3. 海軍工程大學 動力工程學院,湖北 武漢 430033)
針對艦船推進系統集成管理中的實船訓練仿真建模與機械設備狀態(tài)評估等高級應用對知識的需求,研究知識管理中所需要的知識內容與形式,探索數據挖掘方法在大數據知識獲取中的應用模式。以某型推進裝置為對象,研究使用數據挖掘技術獲取所需集成管理知識的途徑,包括聚類算法在推進系統穩(wěn)態(tài)工況基準模式識別中的應用,以及關聯算法在狀態(tài)特征模式識別中的應用等。本文研究為實現基于知識的艦船推進系統集成管理提供了研究基礎。
集成管理;推進系統;數據挖掘;知識獲取
隨著艦船推進系統的復雜程度及相應的集成管理要求的不斷提高,對集成管理中數據信息層次的提升越來越引起了人們的重視?;谥R的集成管理是實現系統智能化的關鍵,也是集成管理的發(fā)展趨勢[1–3],這其中知識的獲取是關鍵問題,所獲取的知識可以以專家系統、智能程序等形式應用到集成管理的高級功能之中。
另一方面,新型艦船動力監(jiān)控系統具備數據長時存儲的能力,隨著服役時間的增長,運行數據不斷積累,這些實時/歷史數據中保存了豐富的設備與系統的狀態(tài)信息,是一個新的寶貴知識源泉。研究針對海量數據的合適的知識獲取方法,提升數據的智能化程度,將各種數據轉化為計算機可以理解的知識形式,是數據信息處理的研究熱點[4–6]。使用數據挖掘算法,從歷史運行數據中找出系統和設備的運行模式知識,是知識獲取中的一個新途徑,可以彌補以專家經驗為主要來源的知識獲取方式的不足。
本文針對艦船推進系統集成管理中的實船訓練仿真建模與機械設備狀態(tài)評估等高級應用功能對知識的需求,研究推進裝置運行狀態(tài)模式知識的內容與形式,以及數據挖掘算法的應用模式,并詳細研究聚類分析算法在穩(wěn)態(tài)運行工況基準模式識別中的應用,以及關聯分析算法在運行狀態(tài)特征模式識別中的應用。
集成管理中的知識主要應用于高級應用功能中,其基礎是用合適的知識形式對推進系統所處的狀態(tài)模式進行正確識別,即提取推進系統所處狀態(tài)模式的量化特征,以及對推進系統狀態(tài)模式的分類與預測。
在實船訓練仿真建模中,隨著設備運行時間的增長,設備特性也在變化。常規(guī)仿真模型中,所有的參數一旦確定后,很少改變,這樣模型特性無法反映設備性能的時間衰減特性,對于實船訓練來講,模型精度和訓練效果會下降,模型性能與實際系統的性能之間的偏差會越來越大。需要找出一個方法,從歷史運行數據中識別出設備的當前狀態(tài)基準模式知識,便于對相應的模型參數進行修正。
在機械設備健康狀態(tài)監(jiān)測中,需要發(fā)現設備健康狀態(tài)的基準模式知識,以及健康狀態(tài)下,系統與設備的特征模式知識,以此作為健康狀態(tài)監(jiān)測的標準。在機械設備故障預測和診斷中,同樣的需要非健康狀態(tài)下的系統與設備的特征模式知識,以及故障模式的分類匹配知識。此外,由于推進系統存在多種運行工況,所以需要從歷史運行記錄中找到運行工況的分類知識。通過對運行工況的模式識別,在線判斷出推進系統的當前運行工況,便于調用相應工況下的健康狀態(tài)監(jiān)測知識規(guī)則和故障診斷知識規(guī)則,更好地進行知識推理。
綜上所述,根據知識應用的需要,所需要挖掘的知識內容應包括:
①狀態(tài)基準模式,包括設備與系統的運行參數基準值;
②狀態(tài)特征模式,包括健康狀態(tài)、故障狀態(tài)、性能下降過程的特征;
③運行狀態(tài)模式識別,包括故障分類、工況分類和性能狀態(tài)分類等方面。
目前,主要有基于產生式規(guī)則、語義網絡以及基于框架的知識表示方法,其中產生式規(guī)則具有統一的IF-THEN 結構,符合思維的自然形式,易于實現控制與編程操作,還具有模塊性的特點,給知識庫的建立、擴展和維護提供了可管理性,是許多成功的專家系統所普遍采用的知識表示方法?;诋a生式規(guī)則的知識表示中,知識庫由若干條規(guī)則組成,一條規(guī)則通常包括前件(前提條件)和后件(結論):
<Rule〉 = IF <條件〉 THEN <結論〉;
本文主要研究從運行數據集中通過數據挖掘技術獲取規(guī)則形式的知識,其應用模式如圖 1 所示。
圖 1 數據挖掘應用模式Fig. 1 Apllication mode of data mining
監(jiān)控系統積累的原始大數據通過數據轉換進行預處理,去除噪音和異常數據,再根據不同的運行工況條件進行條件性拆分,得到不同工況的累積運行數據存儲在數據倉庫之中。在數據倉庫的基礎上,依據高級應用功能的需要,確定所需的知識模式類型,然后選取相應的挖掘算法進行知識發(fā)現。
穩(wěn)態(tài)工況基準模式是在正常使用情況下系統所應達到的目標狀態(tài),也可以認為這是一個標準無故障的健康狀態(tài),或者在運行優(yōu)化中的狀態(tài)標尺。它包括推進系統在各個穩(wěn)態(tài)工況下,所有運行參數應達到的基準值。其中有的運行參數應達到的基準值可以根據車令表事前確定,如進行閉環(huán)控制的轉速、槳角以及離合器狀態(tài)等;而大多數運行參數的基準值是無法事先確定的,如某一穩(wěn)態(tài)工況下的溫度、壓力等參數,需要根據實際運行狀態(tài)從歷史運行數據集中提取。
2.1 聚類算法
聚類是將數據樣本集 X {X1,X2,…,Xn} 按照某種相似性度量分成 k 簇 {C1,C2,…,Ck} 的過程[7–8],使同一個簇中的樣本之間具有很高的相似度,而不同簇中的樣本高度相異,即
數據樣本 Xi由 d 個屬性值組成,Xi=(Xi1,Xi2,…Xid),其中 Xif表示樣本中的各屬性,d 是樣本或樣本空間的維數(或屬性個數)。這樣,聚類的樣本集可看成是一個 n × d(n 個樣本 × d 個屬性)的數據矩陣,如式(1)所示:
簇的質心是簇的“中間值”,不需要是簇中實際點。令 ni表示簇 Ci中樣本的數量,mi表示對應樣本的均值,則簇的質心滿足:
簇的半徑是簇中 2 個點間的均方差的平方根。
相異度是聚類的依據,根據樣本屬性值數據類型的不同有不同的描述形式。常見數據類型有連續(xù)型、二元變量、分類、序數以及比例標度變量,對于連續(xù)型變量,通常使用度量距離。
根據不同的聚類需求,發(fā)展出了許多聚類算法,算法的選擇取決于數據的類型、聚類的目的和應用。
2.2 K-mean 算法
k-mean 算法最早由 Lloyd 以及 MacQueen 提出,屬于基于劃分的方法,以距離值的平均值對聚類成員進行分配,它能較好的處理連續(xù)值屬性的凸集聚類問題[9–10]。
k-mean 算法首先指定聚類數 k,隨機選擇 k 個對象,每個對象代表了一個簇的初始平均值。對剩余的每個對象,根據其與各個簇均值的距離,將它指派到最相似的簇,然后計算每個簇的新均值。這個過程循環(huán)進行,直到準則函數收斂時跳出循環(huán)。通常采用平方誤差準則函數:式中:E 為數據集中所有對象的平方誤差和;p 為樣本空間中的點;mi為簇 Ci 的均值。對于每個簇中的每個樣本,求樣本到其簇中心距離的平方,然后求和。這個準則試圖使生成的 k 個結果簇盡可能的緊湊和獨立。
k-mean 算法的基本思想基于距離的概念,當狀態(tài)變量為連續(xù)值時常使用 Lp- 范數來度量距離:
當 p = 2 時,表示歐幾里得距離(L2范數);當 p = 1時,表示曼哈頓距離(L1范數)。還可對每個屬性值根據其重要性人為的添加權重,成為加權 Lp- 范數。
k-mean 算法對數據簇中的所有數據取平均值,這樣導致如果存在個別距離過大的異常數據,則會對聚類中心造成很大影響,好的方面是如果異常數據反映故障狀態(tài),則通過 k-mean 算法可以比較明顯地看出聚類中心的偏離,從而檢測出故障的存在;不好的方面是如果異常數據只是干擾信號,則也會使聚類中心明顯偏離,使人們對系統狀態(tài)產生誤判。所以 k-mean 算法對于異常點數據敏感,如果對待處理的數據集進行了較好的 ETL(抽取、轉換、加載)的預處理,則可以發(fā)揮 k-mean 算法的優(yōu)勢,從數據集中抽取到真實的狀態(tài)模式信息。
2.3 基準模式知識識別
根據對推進系統工況劃分的先驗知識,各工況下的轉速、螺距穩(wěn)態(tài)值由控制器中所存儲的車令表確定。所以在數據準備階段,根據車令表對原始數據進行數據提取,匯總各個穩(wěn)態(tài)工況下的歷史運行數據,過濾其它工況下的運行數據。將提取的各個穩(wěn)態(tài)工況下的運行數據以數據表的形式存入數據倉庫中。包括不同的推進系統運行模式,以及各個運行模式下的所有運行工況??紤]到在實際過程中存在狀態(tài)波動與測量誤差,取提取條件為在已知的主機轉速和調距槳螺距的基礎上適當擴大。這樣,從運行數據集中將符合提取條件的數據記錄提取出來,保存到單獨的數據表中。
對于各穩(wěn)態(tài)工況下的數據集合,采用基于劃分的k-mean 算法對其中的連續(xù)狀態(tài)進行聚類,得出相應的聚類中心,從而得到各穩(wěn)態(tài)工況下的狀態(tài)基準值。聚類中有 2 個問題對最終的聚類結果影響較大,一是參加聚類的狀態(tài)參數的數目與種類,另一個是聚類簇的數目 K。
不同的狀態(tài)參數數目,直接影響 k-mean 聚類算法中的計算過程,聚類結果也會不一樣。在進行聚類時,一般按照物理原則和所分析問題的視角來劃分子系統與設備,從而將狀態(tài)參數劃分種類,使所研究問題中存在耦合關系的參數盡量在一類中,而不同種類的參數之間耦合度盡量小。
算法中聚類簇數目 K 值的確定對于狀態(tài)基準模式的準確識別很重要。因為通過提取得到的數據是一個在滿足提取條件的區(qū)間范圍內匯總的數據集合,雖然這一區(qū)間范圍已經經過限制,但數據值還是存在相應的區(qū)間分布;另外,在數據集合中同時存在穩(wěn)態(tài)與動態(tài)過程的狀態(tài)點,僅依據主機轉速和螺距這 2 個狀態(tài)屬性無法將穩(wěn)態(tài)與動態(tài)狀態(tài)完全區(qū)分。所以在初次聚類時,選擇不同的 K 值分別計算狀態(tài)基準值,與研究平臺的穩(wěn)態(tài)值相比較,選取最接近工況穩(wěn)態(tài)值的簇中心點作為狀態(tài)基準值,因為抽取的樣本狀態(tài)已經相對集中,所以 K 值不用取較大的測試值,在 5 以內即可。
經過聚類計算和篩選后,可以得到在各穩(wěn)態(tài)工況下的推進系統動力學狀態(tài)基準值,表 1 是某 CODAD推進系統港內模式 1# 機工作時聚類基準值與工況穩(wěn)態(tài)值的比較列表。
系統的穩(wěn)定狀態(tài)是一種理想情況,在實船穩(wěn)態(tài)運行過程中,各參數實際上存在小范圍波動,一般測量的瞬時穩(wěn)態(tài)值難以代表長期的狀態(tài)基準值,而采用聚類分析的手段能夠較好的從運行數據集中提取出推進系統各穩(wěn)定工作狀態(tài)的基準值。采用聚類算法提取的狀態(tài)基準值,相對精確地反映了設備與系統的當前狀態(tài),可以用于系統建模與模型修正。此外,還可以在狀態(tài)監(jiān)測中作為性能退化程度的標準值,當實際狀態(tài)與該工況下的基準值之間的偏差大于一定程度時,認為系統處于故障狀態(tài),相應的啟動報警和故障診斷模塊。狀態(tài)基準值同時在運行優(yōu)化中可以作為管理者的目標值。
表 1 聚類基準值與工況穩(wěn)態(tài)值比較Tab. 1 Compare cluster centre value and stable running value
狀態(tài)特征模式是指在一定工況下,推進系統狀態(tài)參數之間的一種特定量化關系,它通過定量的數值關系描述某一運行工況的特性。通過對特征模式的識別,可以建立各個運行工況和與之相應的特征模式之間一對一的映射關系。這樣,可以根據狀態(tài)特征模式推斷推進系統的運行工況。
3.1 Apriori 關聯算法
從數學上看,關聯是 2 個或多個變量取值之間存在的一類重要的可被發(fā)現的某種規(guī)律性。關聯分析的目的是尋找數據集中數據項之間隱藏的關聯關系,描述數據之間的密切度。關聯算法的實施一般分 2 個步驟:第 1 步從數據集中搜索頻繁項集;第 2 步在頻繁項集的基礎上歸納關聯規(guī)則,其中頻繁項集的計算是最主要的[11–13]。
Apriori 算法是 R.Agrawal 和 Srikant 于 1994 年提出的為布爾關聯規(guī)則挖掘頻繁項集的基本算法。它使用逐層搜索的迭代方法,通過侯選集產生頻繁項集,首先通過掃描數據庫,累積每個項的計數,并收集滿足最小支持度的項,找出頻繁 1 項集的集合,記作 L1。然后由 L1排列組合列出侯選 2 項集 C2,C2是頻繁 2項集 L2的超集,L2是 C2的子集。使用 Apriori 性質從C2中剪枝得到 L2。如此下去逐步搜索 L3和L4,直到不能再找到頻繁 k 項集。
Apriori 算法的核心內容是提出了用于壓縮搜索空間的 Apriori 性質:頻繁項集的所有非空子集也必須是頻繁的,即如果侯選集 I 不是頻繁項集,則項 A 添加到項集 I 后的合項集(I∪U)也不是頻繁項集。這一性質可以從較大的 C(k–1)快速提取L(k–1)。
一旦頻繁項集迭代搜索完畢,就可以由得到的頻繁項集產生出強關聯規(guī)則(滿足最小置信度和最小支持度)。具體步驟如下;
1)對于每個頻繁項集 Li(1 < i ≤ k),產生 Li的所有非空子集;
2)對于 Li的每個非空子集 S,如果 confidence即規(guī)則置信度超過最小置信度,則可以輸出關聯規(guī)則
置信度的計算公式:
即為頻繁項集 Li與 S 的支持度計數之比。
對于連續(xù)型變量,使用 Apriori 算法之前需要進行變量離散化。
3.2 特征模式識別
對于子系統和設備的狀態(tài)參數之間存在復雜映射關系的情況,使用關聯算法從工況運行數據中提取知識規(guī)律具有獨特的優(yōu)勢。如主機主軸承溫度與主機工況之間的聯系;齒輪箱支撐軸承溫度、正倒車推力軸承溫度與齒輪箱工況之間的關聯情況;調距槳運行參數與調距槳工況間的關系等。識別出來的狀態(tài)特征模式可以作為狀態(tài)監(jiān)測的知識儲備。
以調距槳工況與正車推力軸承溫度之間的聯系為例,如果采用機理函數的思路描述兩者之間的非線性映射關系,需要考慮復雜的影響因素,并且通過大量實際試驗研究才能分析過程中的機理關系。而采用關聯分析方法,不需要對物理過程的先驗知識,可以直接從運行數據中快速的發(fā)現調距槳運行工況與齒輪箱正車推力軸承溫度之間的關聯關系。
選取正常每軸單機模式 1# 機工作時的各動態(tài)工況數據集,采用基于 Apriori 算法的關聯算法進行計算。表 2 是從所有健康狀態(tài)記錄中提取的 9 條模式特征規(guī)則,(取規(guī)則的提取條件為概率大于 0.9,重要性大于1.0)。它們反映調距槳轉速、推力與正車推力軸承溫度之間的復雜映射關系。令規(guī)則的前件為軸轉速和螺旋槳推力,規(guī)則的后件為正車推力軸承溫度,可以看出,當螺旋槳推力為負時,仍然可以從運行數據集中識別出相應的知識規(guī)則,根據知識規(guī)則查出正車推力軸承的正常溫度范圍。
由于運行數據包含正常每軸單機模式 1# 機驅動下的所有運行工況,數據分布的區(qū)間較寬,所以識別出來的關聯知識規(guī)則中參數的數值分布也較寬。
表 2 動態(tài)工況特征模式關聯規(guī)則Tab. 2 Associate rules to dynamic running state characteristic
算法中連續(xù)值屬性的離散化方法對關聯規(guī)則的產生有一定影響,可使用聚類算法對連續(xù)值屬性進行離散化預處理。取不同的聚類數可以得到不同取值范圍的關聯規(guī)則,對于規(guī)則的敏感度與實用性影響較大。并不是每一條規(guī)則都有實用價值,存在規(guī)則篩選的問題。除了規(guī)則概率及重要性外,還要依據工況狀態(tài)的先驗知識進行分析篩選,更重要的是在應用過程中對規(guī)則的有效性進行檢驗。經過評估后得到的可靠特征模式規(guī)則,才能作為特征模式知識最終存入知識庫。
從推進系統狀態(tài)監(jiān)測和故障診斷的角度來看,在運行數據集中最多的是系統在健康狀態(tài)下的記錄,所以可以首先將關聯規(guī)則知識用于推進系統健康狀態(tài)監(jiān)測。在積累了一定程度的故障狀態(tài)運行數據信息后,可以提取故障狀態(tài)的特征模式,從而使用關聯知識規(guī)則進行故障預警與故障診斷分析。
在艦船推進系統的集成管理中,需要將數據信息提升到知識的層次。利用裝置運行數據和信息作為監(jiān)控管理工具是一個尚未充分開發(fā)的領域。
本文探討了在推進系統集成管理中所需要的知識形式,數據挖掘技術在知識獲取中的應用模式,以某型 CODAD 聯合推進裝置為對象,研究了數據挖掘技術在知識獲取中的應用。為實現基于知識的艦船推進系統集成管理提供了研究基礎。需要注意的是,數據挖掘所能夠發(fā)現的知識模式是由數據集中所蘊涵信息所決定的。積累信息量充足的數據集是數據挖掘知識可用性的客觀基礎。
[1]KIEHNE T. Co-simulation and dynamic assessment of thermal management strategies aboard naval surface ships[R]. Texas: Electric Ship Research and Development Consortium, University of Texas, 2014.
[2]PINHA D, AHLUWALIA R. Decision support system for production planning in the ship repair industry[J]. Industrial and Systems Engineering Review, 2014, 2(1): 52–61.
[3]ELBASHIR M Z, COLLIER P A, SUTTON S G. The role of organizational absorptive capacity in strategic use of business intelligence to support integrated management control systems[J]. The Accounting Review, 2011, 86(1): 155–184.
[4]SHEN Y, LI X W, GAO H J, et al. Data-based techniques focused on modern industry: an overview[J]. IEEE Transactions on Industrial Electronics, 2015, 62(1): 657–667.
[5]Rotating machine condition monitoring-the state of the art[EB/OL]. [2014-10-15]. http://www.users.aston. ac.uk:880/modiarot/.
[6]MITGMBH. DataEngine[EB/OL]. [2014-10-15]. http://www.dataengine.de/english/sp/demos/english/dataengine.exe.
[7]VELMURUGAN T. Performance based analysis between k-Means and Fuzzy C-Means clustering algorithms for connection oriented telecommunication data[J]. Applied Soft Computing, 2014, 19: 134–146.
[8]CHATURVEDI A, GREEN P E, CARROLL J D. K-modes clustering[J]. Journal of Classification, 2001, 18(5): 35–55.
[9]TZORTZIS G, LIKAS A. The MinMax k-means clustering algorithm[J]. Pattern Recognition, 2014, 47(7): 2505–2516.
[10]CHAVES A A, LORENA L A N. Clustering search algorithm for the capacitated centered clustering problem[J]. Computers & Operations Research, 2010, 37(3): 552–558.
[11]GHARIB T F, NASSAR H, TAHA M, et al. An efficient algorithm for incremental mining of temporal association rules[J]. Data & Knowledge Engineering, 2010, 69(8): 800–815.
[12]WINARKO E, RODDICK J F. ARMADA-An algorithm for discovering richer relative temporal association rules from interval-based data[J]. Data & Knowledge Engineering, 2007, 63(1): 76–90.
[13]áLVAREZ V, VáZQUEZ J M. An evolutionary algorithm to discover quantitative association rules from huge databases without the need for an a priori discretization[J]. Expert Systems With Applications, 2012, 39(1): 585–593.
Research on knowledge mining method for marine propulsion system integrated management
YUAN Li-guo1, CUI Heng-wu2, CAO Shi-jie3
(1. Equipment Department of Naval North China Sea Fleet, Qingdao 266071, China; 2. Training Office of 92001 Troops Headquarters, Qingdao 266001, China; 3. Naval University of Engineering, College of Naval Power Engineering, Wuhan 430033, China)
To meet with the knowledge requirements of integrated management advanced applications of marine propulsion system, such as on board training simulation and mechanical equipment condition estimate et al. The type and expression of integrated management knowledge are analyzed. Data mining arithmetic is put forward to explore the application mode of knowledge mining and identify the running mode regulation of propulsion system. This research emphasis on clustering arithmetic applied to identify the norm value of running mode, associated arithmetic applied to identify the characteristic of running mode. The research in this paper can be a study foundation for knowledge based integrated management of marine propulsion system.
integrated management;propulsion system;data mining;knowledge acquire
C37
A
1672–7619(2016)12–0098–06
10.3404/j.issn.1672–7619.2016.12.020
2016–05–26;
2016–07–13
中國博士后科學基金資助項目(201150M1547);湖北省自然科學基金資助項目(2013CFB440)
袁利國(1975–),男,博士,工程師,研究方向為艦船動力裝置總體設計。