谷廣宇,劉建敏,喬新勇
發(fā)動機作為裝甲車輛的心臟,其技術(shù)狀況的優(yōu)劣直接影響車輛性能和戰(zhàn)斗力,因此如何科學有效地評估發(fā)動機技術(shù)狀況,已成為部隊關(guān)注的重點。目前,我軍在裝甲車輛發(fā)動機技術(shù)狀況評估方面,已經(jīng)做了部分研究[1-2],然而這些研究主要集中在根據(jù)先驗樣本數(shù)據(jù)建立評估模型,對未知樣本進行評估,而對于在沒有先驗知識的情況下,如何確立發(fā)動機各技術(shù)狀況等級的劃分基準的研究,仍相對缺乏。
現(xiàn)有對發(fā)動機狀況等級基準劃分的研究中,文獻[3]中提出了將發(fā)動機根據(jù)摩托小時劃分技術(shù)狀況階段,再擬合各階段的平均值確定相應等級的評估基準。文獻[4]中提出了利用主成份分析法根據(jù)散點圖分布劃分技術(shù)狀況區(qū)域,再通過神經(jīng)網(wǎng)絡(luò)建立評估模型。這兩類方法解決了沒有先驗知識的情況下有效評估發(fā)動機技術(shù)狀況的問題,但無論是以摩托小時進行階段的劃分,還是以散點圖分布進行區(qū)域劃分,都存在很大的主觀因素,不同的劃分標準也會對最終的評估結(jié)果造成很大影響。由于環(huán)境條件、工作強度等因素影響,發(fā)動機的實際技術(shù)狀況存在很大隨機性,不同樣本下建立的評估基準與評估模型可能存在較大差異,并且由于受試驗成本、試驗周期等條件的限制,通常無法進行大量試驗來獲取大樣本,這也會增加樣本隨機性對評估模型的影響,難以保證其最終得到評估結(jié)果的可靠性。
為解決上述問題,本文中通過改進K_means聚類算法,利用試驗樣本數(shù)據(jù)分布,計算各等級聚類中心及其分類,建立更加客觀穩(wěn)定的評估模型,實現(xiàn)基于數(shù)據(jù)驅(qū)動的發(fā)動機狀態(tài)評估,并融合Bootstrap小子樣統(tǒng)計方法,利用其通過再生抽樣將小樣本問題轉(zhuǎn)化成大樣本的特性,削弱試驗樣本隨機性對評估模型的影響,增強發(fā)動機評估模型的穩(wěn)定性。
K_means算法是一種典型的基于劃分的聚類算法,屬于無監(jiān)督機器學習方法的一種。該算法將一個含有n個樣本的集合劃分為K個子集合,其中每個子集合代表一個類簇,同一類簇中的樣本具有高度的相似性,不同類簇中的樣本相似度較低。
K_means算法的基本思想是:首先從n個樣本集中隨機選擇K個樣本作為初始聚類中心,根據(jù)每個樣本與各個聚類中心的相似度,將其分配給最相似的聚類中心,得到K個互不相交的類簇集合;然后重新計算每個類簇的新中心,再將每個樣本根據(jù)相似性原理分配給最近的簇中心,重新計算每個類簇的新中心,分配每個樣本到距離最近的類簇。這個過程不斷重復,直到各個類簇的中心不再變化,得到原始樣本集合的K個互不相交的穩(wěn)定的類簇。
該方法在聚類過程中采取距離就近原則,將數(shù)據(jù)樣本中的每個屬性變量統(tǒng)一看待,而忽略了每個屬性在聚類分析過程中對于數(shù)據(jù)樣本劃分的不同重要性。例如在發(fā)動機狀態(tài)評估中,特征序列與使用時間序列的相關(guān)性越大,表示特征參數(shù)隨使用時間逐漸劣化的趨勢越明顯,用來評估發(fā)動機技術(shù)狀況優(yōu)劣的效果越好,在聚類過程中應給予相應重視。
由于K_means算法是一個局部搜索過程,其聚類結(jié)果依賴于初始聚類中心和初始劃分[5],因此本文中提出基于加權(quán)歐氏距離最小方差優(yōu)化初始聚類中心的K_means改進算法。
在K_means算法中,對于待聚類的數(shù)據(jù)樣本X=(x1,…,xn)和 K 個初始聚類中心 C1,C2,…,CK,基本定義如下。
樣本xi與xj間加權(quán)歐氏距離:
樣本xi到所有樣本的平均距離:
樣本xi的方差:
數(shù)據(jù)樣本的平均距離:
聚類誤差平方和:
其一般過程如圖1所示。
圖1 K_means算法一般流程
在傳統(tǒng)聚類算法中,按樣本間相似度進行聚類劃分通常以歐氏距離為準,即
為了反映特征序列與使用時間序列的相關(guān)性,通過對多種賦權(quán)法的比較[6],提出了基于特征序列相關(guān)性指標的定權(quán)方法。相關(guān)性指標是在相關(guān)系數(shù)的基礎(chǔ)上提出的,以取絕對值的方法將其限定在[0,1]區(qū)間,表征了特征序列與使用時間間的線性相關(guān)程度。某個特征序列的相關(guān)性指標值越大,其與使用時間的線性相關(guān)性也越大,從而該特征也能更好地描述發(fā)動機技術(shù)狀況從優(yōu)到劣的變化過程。該方法權(quán)重計算步驟如下。
對于樣本數(shù)據(jù)的第i個特征序列,其相關(guān)性指標是其相關(guān)系數(shù)的絕對值,即
式中:Corri為第i個特征序列的相關(guān)性指標;Y=(y1,y2,…,yN)為第 i個特征序列;N 為檢測次數(shù),即序列長度;T=(t1,t2,…,tN)為相應時間序列。 根據(jù)樣本所有屬性的變異系數(shù),計算各屬性的權(quán)重:
此時計算樣本間相似度可采用加權(quán)歐氏距離:
由于樣本分布存在不確定性,傳統(tǒng)K_means算法中依靠隨機選取產(chǎn)生的初始聚類中心,有可能是一些孤立點或噪聲點。這將導致聚類結(jié)果偏離真實分布,從而得到錯誤的聚類結(jié)果,并且這一現(xiàn)象在小樣本條件下的發(fā)動機狀態(tài)評估過程中將更加嚴重。因此本文中提出最小方差啟發(fā)式初始聚類中心優(yōu)化選取方法。
該方法的基本思想是:以樣本方差作為啟發(fā)信息,選取方差最小的樣本作為初始聚類中心,并以樣本平均距離劃分初始聚類,從而選擇出周圍樣本分布比較密集的初始聚類中心,避免孤點和噪聲點的干擾。算法流程如圖2所示。
圖2 初始聚類中心計算方法
Bootstrap小子樣統(tǒng)計方法是一種自助估計方法,其思路是用現(xiàn)有的資料去模仿未知的分布,通過再生抽樣將小樣本問題轉(zhuǎn)化成大樣本,因此該方法適用于小樣本條件下的統(tǒng)計推斷。
Bootstrap方法基本原理主要根據(jù)觀測到來自于未知總體分布F的隨機子樣X=(X1,…,Xn),估計總體分布F的某一分布特征R(X,F(xiàn)),如均值、方差等,從而推測總體分布F,具體方法如下。
設(shè)總體分布F的某個分布特征θ=θ(F)(如均值,方差等),由觀測子樣 X=(X1,…,Xn)構(gòu)造經(jīng)驗分布 Fn,則有對 θ的估計 θ^=θ^(Fn),估計誤差為
根據(jù)經(jīng)驗分布 Fn,重新抽取再生子樣X(1)=(X(11),…,X(n1)),進而構(gòu)造經(jīng)驗分布函數(shù)F(n1)。于是由X(1)又可得到θ的估計F(n1))。此時可得到估計誤差Tn的Bootstrap統(tǒng)計量R(n1),即
重復抽取多組再生子樣 X(i),i= 1,2,…,m,可計算相應的R(ni),i= 1,2,…,m,進而可利用 R(ni)的分布去逼近Tn的分布,即可根據(jù)式(1)得到θ(F)的樣本:
在小樣本估計中,該方法較傳統(tǒng)統(tǒng)計方法具有較高精度。
以某型裝甲車輛柴油機為研究對象,其常用的技術(shù)狀況評估指標體系如圖3所示[7]。對累計使用時間在0~550摩托小時內(nèi)的發(fā)動機,盡量按每間隔50摩托小時選擇1臺作為基準樣本,同時選取3臺狀態(tài)已知的發(fā)動機作為測試樣本,以驗證方法的有效性。采集處理后部分樣本狀態(tài)參數(shù)如表1和表2所示。
圖3 某型裝甲車輛柴油機評估指標體系
表1 基準樣本狀態(tài)參數(shù)
表2 測試樣本狀態(tài)參數(shù)
(1)評估數(shù)據(jù)選取
在實例驗證中,表1樣本為基準樣本,建立發(fā)動機狀態(tài)評估模型,劃分各技術(shù)狀況等級基準;選取表2樣本為測試樣本,利用上述模型評估其技術(shù)狀況,以驗證該方法的有效性。
(2)確定評語集
根據(jù)柴油機技術(shù)狀況的優(yōu)劣程度,建立5級評語集。 將柴油機劃分為“好”、“較好”、“一般”、“較差”和“差”5個技術(shù)狀況等級。
(3)計算各屬性權(quán)重
根據(jù)表1所示樣本數(shù)據(jù),計算特征參數(shù)對應的變異系數(shù):
V=[0.116,0.482,0.353,0.280,0.724,0.687]
由式(3)可得各屬性權(quán)重:
W=[0.044,0.182,0.134,0.106,0.274,0.260]
(4)初始聚類中心
對于發(fā)動機而言,由于出廠后需要經(jīng)歷一定時間的磨合,磨合期結(jié)束后發(fā)動機狀態(tài)達到最佳,發(fā)動機達到規(guī)定使用時長的極限,返廠大修時,其狀態(tài)為最差。因此在采用K_means聚類算法時,可直接采用磨合期結(jié)束時(約50摩托小時)和返廠大修規(guī)定摩托小時(約550摩托小時)的樣本數(shù)據(jù)xi和xj分別作為“好”和“差”兩個等級的初始聚類中心,并根據(jù)其他樣本數(shù)據(jù),采用圖1所示算法流程,計算“較好”、“一般”和“較差”3個技術(shù)狀況等級的初始聚類中心。
(5)分配樣本、更新聚類中心
將測試樣本依據(jù)式(4)分配到距離最近初始聚類中心相應的簇類中,并根據(jù)圖2的流程,重新計算聚類中心。更新后聚類中心矩陣為
(6)聚類中心修正
根據(jù)原樣本分布,重新抽取N組再生子樣X(n),n=1,2,…,N。 并對再生子樣重復步驟(4)和步驟(5),計算相應聚類中心根據(jù)式(6)可知原樣本聚類中心的估計誤差分布為
本文中取N=50重新抽取再生子樣,依照上述方法估計測試樣本聚類中心的誤差分布矩陣:
依據(jù)Bootstrap小子樣統(tǒng)計方法,可利用再生子樣修正原樣本各技術(shù)狀況等級的聚類中心:
根據(jù)式(9)可得修正后聚類中心:
(7)樣本狀態(tài)評估
利用權(quán)重向量V和聚類中心C,根據(jù)相似性原理評估13~15號樣本的技術(shù)狀況,測試樣本對各等級基準的相似度和評語如表3所示。
表3 測試樣本評估結(jié)果
測試樣本的評估結(jié)果能夠定量、定性地反映發(fā)動機技術(shù)狀況,并且與發(fā)動機實際狀況一致,因此該方法可作為在缺少先驗知識和小樣本條件下對發(fā)動機進行狀態(tài)評估的有效手段。
為對比本文方法與文獻[3]中所述傳統(tǒng)方法的客觀性和穩(wěn)定性,在上文1~12號基準樣本的基礎(chǔ)上,以相同方法重新采集整理一組對比樣本,如表4所示。
表4 對比分析樣本
采用本文提出的基于狀態(tài)參數(shù)方法,分別以第1組和第2組樣本建立評估模型,并對所有樣本進行評估,結(jié)果見圖4。
圖4 本文方法的評估結(jié)果
由圖可見:發(fā)動機的技術(shù)狀況隨著摩托小時逐漸劣化的趨勢明顯;在0~200摩托小時內(nèi)基本為“好”和“較好”,在200~350摩托小時內(nèi)基本為“較好”和“一般”,在這兩個區(qū)間內(nèi)技術(shù)狀況呈現(xiàn)了兩種技術(shù)狀況變化的過渡,體現(xiàn)了技術(shù)狀況變化的逐漸性和模糊性;在350~450摩托小時內(nèi)為“較差”,在500摩托小時以上為“差”。技術(shù)狀況的這種變化趨勢與理論分析的結(jié)果大致吻合。
采用文獻[3]中所述傳統(tǒng)方法,分別以第1組和第2組樣本建立評估模型,并對所有樣本進行評估,結(jié)果見圖5。
圖5 傳統(tǒng)方法的評估結(jié)果
用傳統(tǒng)方法評估所有27個樣本時,有6個樣本在兩組不同樣本建立的評估模型下的結(jié)果不同。而本文方法在相同條件下只有2個樣本得到了不同結(jié)果。這表明本文中提出的基于狀態(tài)參數(shù)發(fā)動機狀態(tài)評估方法在處理少量狀態(tài)參數(shù)樣本時比傳統(tǒng)方法具有更強的穩(wěn)定性。
本文中利用加權(quán)歐氏距離和最小方差啟發(fā)式算法對K_means聚類算法進行了改進,并通過融合Bootstrap小子樣統(tǒng)計方法提出了一種基于改進K_means的發(fā)動機狀態(tài)評估方法。
該方法能在缺少先驗知識的小樣本條件下,建立穩(wěn)定的發(fā)動機狀態(tài)評估模型,實現(xiàn)發(fā)動機技術(shù)狀況的有效評估。與傳統(tǒng)方法相比,該方法在處理隨機性較大的狀態(tài)參數(shù)樣本時具有更強的穩(wěn)定性,并且該方法完全依靠發(fā)動機狀態(tài)參數(shù),具有更強的客觀性。