程紹馳 游光榮
(1.軍事科學(xué)院 戰(zhàn)略評(píng)估咨詢中心,北京100091;2.軍事科學(xué)院 戰(zhàn)爭(zhēng)研究院,北京100091)
武器裝備系統(tǒng)效能評(píng)估是指評(píng)估武器裝備系統(tǒng)在特定的環(huán)境和規(guī)定的時(shí)間內(nèi),完成指定作戰(zhàn)任務(wù)的綜合能力[1]。隨著信息化技術(shù)的迅猛發(fā)展,武器裝備系統(tǒng)內(nèi)部各要素之間的關(guān)聯(lián)關(guān)系越來(lái)越錯(cuò)綜復(fù)雜,而且可能瞬息萬(wàn)變,這使得武器裝備系統(tǒng)效能評(píng)估指標(biāo)的關(guān)聯(lián)關(guān)系越來(lái)越復(fù)雜,評(píng)估指標(biāo)的冗余問題越來(lái)越突出,由此可能增加評(píng)估數(shù)據(jù)的收集難度和評(píng)估計(jì)算的復(fù)雜度。因此,挖掘武器裝備系統(tǒng)效能評(píng)估指標(biāo)的關(guān)聯(lián)關(guān)系,找出冗余指標(biāo)并進(jìn)行精簡(jiǎn)具有重要的現(xiàn)實(shí)意義。
當(dāng)前國(guó)內(nèi)外相關(guān)研究中,精簡(jiǎn)武器裝備系統(tǒng)效能評(píng)估指標(biāo)通?;趯<抑R(shí)和經(jīng)驗(yàn),采用定量方法的并不多見。司光亞等對(duì)效能評(píng)估指標(biāo)之間存在的相互依賴與影響關(guān)系進(jìn)行了深度挖掘[2],但是沒有提出剔除冗余指標(biāo)的方法;薛世欽等針對(duì)復(fù)雜作戰(zhàn)體系效能評(píng)估指標(biāo)可能存在的關(guān)聯(lián)和冗余問題,提出了一種基于Apriori 算法剔除冗余指標(biāo)的方法[3];韓馳等面向航天偵察體系的體系效能和體系貢獻(xiàn)率評(píng)估,基于FP-Tree 算法挖掘評(píng)估指標(biāo)的關(guān)聯(lián)關(guān)系[4]。然而,文獻(xiàn)[3]采用的Apriori 算法和文獻(xiàn)[4]采用的FP-Tree 算法,主要基于支持度和置信度來(lái)衡量評(píng)估指標(biāo)關(guān)聯(lián)關(guān)系的強(qiáng)弱,易引入冗余關(guān)聯(lián)關(guān)系[5]。本文探索一種基于改進(jìn)Apriori 算法挖掘武器裝備系統(tǒng)效能評(píng)估指標(biāo)之間關(guān)聯(lián)關(guān)系的方法,再利用極大不相關(guān)法減少冗余關(guān)聯(lián)關(guān)系的引入。
2.1.1 關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則是形如X→Y的表達(dá)式,其中X,Y均為項(xiàng)集,且X∩Y =?,X被稱為規(guī)則前件,Y被稱為規(guī)則后件。關(guān)聯(lián)關(guān)系分析算法就是要從數(shù)據(jù)集中找到一些頻繁出現(xiàn)的關(guān)聯(lián)規(guī)則。
2.1.2 支持度與置信度
關(guān)聯(lián)規(guī)則是否頻繁出現(xiàn),通常用支持度s與置信度c來(lái)度量,公式如下:
式(1)(2)中,σ(X∪Y)和σ(X)分別表示項(xiàng)集X∪Y和X在數(shù)據(jù)集中的計(jì)數(shù),M表示事務(wù)總數(shù)。
2.1.3 頻繁項(xiàng)集、候選項(xiàng)集與強(qiáng)規(guī)則
關(guān)聯(lián)關(guān)系分析算法通常包括兩個(gè)步驟:一是確定頻繁項(xiàng)集,即提取滿足最小支持度閾值的所有項(xiàng)集,而需要計(jì)算支持度的項(xiàng)集被稱為候選項(xiàng)集;二是確定強(qiáng)規(guī)則,即從上一步確定的頻繁項(xiàng)集中,提取滿足最小置信度閾值的所有規(guī)則。
Apriori 算法采用的支持度-置信度框架由于存在忽視規(guī)則后件支持度的固有缺陷[6~9],容易得到一些規(guī)則前件與規(guī)則后件互斥的虛假關(guān)聯(lián)規(guī)則,即規(guī)則前件的出現(xiàn)會(huì)降低規(guī)則后件的出現(xiàn)概率,下面舉例說(shuō)明,見表1。
表1 虛假關(guān)聯(lián)關(guān)系說(shuō)明表
假設(shè)表1 為1 000 次評(píng)估實(shí)踐中指標(biāo)1 和指標(biāo)2取值的分布情況。由表1 中的數(shù)據(jù)計(jì)算可知,關(guān)聯(lián)規(guī)則“指標(biāo)2(高)→指標(biāo)1(高)”的支持度s(指標(biāo)2(高)→指標(biāo)1(高))=60%,“指標(biāo)2(高)→指標(biāo)1(高)” 的置信度c(指標(biāo)2(高)→指標(biāo)1(高))=70.6%,按照Apriori 算法進(jìn)行關(guān)聯(lián)規(guī)則分析,“指標(biāo)2(高)→指標(biāo)1(高)”易被確定為強(qiáng)關(guān)聯(lián)規(guī)則。然而,如果僅看指標(biāo)1(高)的支持度,s(指標(biāo)1(高))=71%,即s(指標(biāo)1(高))>c(指標(biāo)2(高)→指標(biāo)1(高)),這說(shuō)明“指標(biāo)2 高” 的出現(xiàn)反而降低了“指標(biāo)1 高” 出現(xiàn)的概率,因此“指標(biāo)2(高)→指標(biāo)1(高)” 是一個(gè)虛假關(guān)聯(lián)規(guī)則。
為改進(jìn)上一節(jié)提到的Apriori 算法的不足,引入提升度的概念:
當(dāng)Lift(X→Y)=1 時(shí),表示X與Y相互獨(dú)立;當(dāng)0<Lift(X→Y)<1 時(shí),表示X出現(xiàn)會(huì)降低Y出現(xiàn)的概率;當(dāng)Lift(X→Y)>1 時(shí),表示X與Y同時(shí)出現(xiàn)的概率高。對(duì)于表1 的數(shù)據(jù),c(指標(biāo)2(高)→指標(biāo)1(高))=70.6%,s(指標(biāo)1(高))=71%,Lift(指標(biāo)2(高)→指標(biāo)1(高))=<1,這表明“指標(biāo)2(高)” 出現(xiàn)會(huì)降低“指標(biāo)1(高)” 出現(xiàn)的概率,“指標(biāo)2(高)→指標(biāo)1(高)” 是一個(gè)虛假關(guān)聯(lián)規(guī)則,應(yīng)剔除掉。
極大不相關(guān)法的具體計(jì)算步驟如下[10,11]:
假設(shè)有m個(gè)評(píng)估樣本,每個(gè)評(píng)估樣本都包含n個(gè)評(píng)估指標(biāo),則所有評(píng)估數(shù)據(jù)組成m × n的評(píng)估數(shù)據(jù)矩陣:
計(jì)算各評(píng)估指標(biāo)的均值:
計(jì)算各評(píng)估指標(biāo)的方差以及各評(píng)估指標(biāo)之間的協(xié)方差:
式(8)(9)中,sii表示各評(píng)估指標(biāo)的方差,sij表示各評(píng)估指標(biāo)之間的協(xié)方差。
計(jì)算各評(píng)估指標(biāo)之間的相關(guān)系數(shù):
所有相關(guān)系數(shù)組成n × n的相關(guān)矩陣:
令R-i為相關(guān)矩陣R去除第i行和第i列后形成的矩陣,為矩陣R-i的逆矩陣,ri =(r1i,r2i,…,ri-1,i,ri+1,i,…,rni),為ri的轉(zhuǎn)置,則:
式(12)中,ρi被稱為復(fù)相關(guān)系數(shù),能夠度量評(píng)估指標(biāo)xi與其余n -1 個(gè)指標(biāo)的相關(guān)性,且ρi的值越大,表示評(píng)估指標(biāo)xi與其余n -1 個(gè)指標(biāo)的相關(guān)性越高,即越容易被其余n -1 個(gè)指標(biāo)替代,是冗余指標(biāo)的可能性越大。
實(shí)驗(yàn)數(shù)據(jù)來(lái)源于文獻(xiàn)[1],其針對(duì)地空導(dǎo)彈武器系統(tǒng)效能評(píng)估,構(gòu)建了包括5 個(gè)一級(jí)指標(biāo)、18 個(gè)二級(jí)指標(biāo)、20 個(gè)三級(jí)指標(biāo),共3 層43 個(gè)指標(biāo)的評(píng)估指標(biāo)體系,各個(gè)指標(biāo)的權(quán)重基于層次分析法計(jì)算得到,具體數(shù)值見表2。
表2 地空導(dǎo)彈武器系統(tǒng)效能評(píng)估指標(biāo)體系權(quán)重分布表
為模擬指標(biāo)之間的強(qiáng)關(guān)聯(lián)關(guān)系,將“道路機(jī)動(dòng)能力” 和“越野機(jī)動(dòng)能力” 兩個(gè)二級(jí)指標(biāo)的數(shù)據(jù)由其下屬的三級(jí)指標(biāo)加權(quán)求和得到,且保證“道路機(jī)動(dòng)能力” 下屬三級(jí)指標(biāo)同時(shí)為“高” 的支持度大于60%,“越野機(jī)動(dòng)能力” 下屬三級(jí)指標(biāo)同時(shí)為“高”的支持度也大于60%;為模擬指標(biāo)之間的普通關(guān)聯(lián)關(guān)系,“目標(biāo)指示精度”“目標(biāo)分辨力”“目標(biāo)容量”和“可射擊能力” 等4 個(gè)二級(jí)指標(biāo)的數(shù)據(jù)由其下屬的三級(jí)指標(biāo)加權(quán)求和得到,其中的三級(jí)指標(biāo)采用隨機(jī)模擬數(shù)據(jù);為模擬指標(biāo)之間的虛假關(guān)聯(lián)關(guān)系,借鑒表1 中的數(shù)據(jù)分布,模擬構(gòu)建“作用距離” 與“滅火防爆能力”,“毀傷目標(biāo)概率” 與“探測(cè)目標(biāo)階段抗干擾能力”,“反應(yīng)時(shí)間” 與“三防能力” 三對(duì)指標(biāo)之間的虛假關(guān)聯(lián)關(guān)系。除此之外,其余的二級(jí)指標(biāo)和三級(jí)指標(biāo)都采用隨機(jī)模擬數(shù)據(jù)。
在挖掘關(guān)聯(lián)評(píng)估指標(biāo)之前,需要對(duì)評(píng)估數(shù)據(jù)進(jìn)行離散化,原因是不同評(píng)估指標(biāo)的評(píng)估內(nèi)容和計(jì)算方式不同,得到的評(píng)估數(shù)據(jù)的分布情況差異很大,且對(duì)評(píng)估數(shù)值高低的判斷標(biāo)準(zhǔn)有較大差異,在不進(jìn)行離散化的情況下,難以對(duì)評(píng)估指標(biāo)之間的高低關(guān)聯(lián)關(guān)系進(jìn)行挖掘。
本文將所有評(píng)估指標(biāo)都離散化為“高” 和“低”兩種取值,假設(shè)評(píng)估指標(biāo)i的所有評(píng)估數(shù)值中最大值為max(i),最小值為min(i),則評(píng)估指標(biāo)值v(i)為“高” 的標(biāo)準(zhǔn)是:
評(píng)估指標(biāo)值v(i)為“低” 的標(biāo)準(zhǔn)是:
基于4.1 節(jié)的地空導(dǎo)彈武器系統(tǒng)效能評(píng)估,根據(jù)4.2 節(jié)設(shè)計(jì)的標(biāo)準(zhǔn)完成評(píng)估數(shù)據(jù)離散化,然后分別利用傳統(tǒng)Apriori 算法與改進(jìn)的Apriori 算法進(jìn)行關(guān)聯(lián)評(píng)估指標(biāo)挖掘,支持度閾值設(shè)為0.6,置信度閾值設(shè)為0.6,改進(jìn)的Apriori 算法由于有提升度要求,將提升度閾值設(shè)為1.6?;趥鹘y(tǒng)和改進(jìn)的Apriori 算法進(jìn)行關(guān)聯(lián)規(guī)則挖掘的結(jié)果統(tǒng)計(jì)情況見表3。
表3 基于Apriori 算法進(jìn)行關(guān)聯(lián)規(guī)則挖掘的結(jié)果統(tǒng)計(jì)表
通過(guò)比較上述兩種算法的挖掘結(jié)果可以發(fā)現(xiàn),傳統(tǒng)Apriori 算法挖掘出的評(píng)估指標(biāo)之間的強(qiáng)關(guān)聯(lián)規(guī)則為552 條,改進(jìn)Apriori 算法可以有效篩選掉傳統(tǒng)Apriori 算法挖掘出的規(guī)則前件與規(guī)則后件互斥的虛假關(guān)聯(lián)規(guī)則,以及規(guī)則前件和規(guī)則后件獨(dú)立的關(guān)聯(lián)規(guī)則,當(dāng)提升度閾值為1.6 時(shí),可將強(qiáng)關(guān)聯(lián)規(guī)則精簡(jiǎn)至36 條,精簡(jiǎn)比例約為94%。由于篇幅所限,本文僅列出其中5 條強(qiáng)關(guān)聯(lián)規(guī)則進(jìn)行分析,見表4。
表4 基于改進(jìn)Apriori 算法挖掘的部分強(qiáng)關(guān)聯(lián)規(guī)則
通過(guò)分析改進(jìn)Apriori 算法挖掘出的強(qiáng)關(guān)聯(lián)規(guī)則可知,二級(jí)指標(biāo)26 與三級(jí)指標(biāo)8,9,10,11 構(gòu)成強(qiáng)關(guān)聯(lián)指標(biāo)集,二級(jí)指標(biāo)31 與三級(jí)指標(biāo)12,13,14,15 構(gòu)成強(qiáng)關(guān)聯(lián)指標(biāo)集。
實(shí)際上,在構(gòu)建模擬數(shù)據(jù)時(shí),二級(jí)指標(biāo)26 由三級(jí)指標(biāo)8,9,10,11 線性求和得到,二級(jí)指標(biāo)31 由三級(jí)指標(biāo)12,13,14,15 線性求和得到,為排除這種人為引入的相關(guān)性,將兩個(gè)強(qiáng)關(guān)聯(lián)指標(biāo)集內(nèi)的二級(jí)指標(biāo)去掉,利用極大不相關(guān)法計(jì)算剩余指標(biāo)之間的復(fù)相關(guān)系數(shù),有關(guān)三級(jí)指標(biāo)8,9,10,11 的計(jì)算結(jié)果見表5。
表5 三級(jí)指標(biāo)8,9,10,11 的復(fù)相關(guān)系數(shù)表
由復(fù)相關(guān)系數(shù)值排序可知,指標(biāo)10 為冗余指標(biāo),同理可知指標(biāo)15 為冗余指標(biāo)。
本文提出“兩步走”的精簡(jiǎn)評(píng)估指標(biāo)體系方法,第一步基于改進(jìn)Apriori 算法挖掘評(píng)估指標(biāo)之間的強(qiáng)關(guān)聯(lián)規(guī)則,構(gòu)建強(qiáng)關(guān)聯(lián)指標(biāo)集;第二步基于極大不相關(guān)法剔除強(qiáng)關(guān)聯(lián)指標(biāo)集中的冗余指標(biāo)。通過(guò)地空導(dǎo)彈武器系統(tǒng)效能評(píng)估數(shù)據(jù)集實(shí)例驗(yàn)證,本文提出的方法可以比傳統(tǒng)Apriori 算法更準(zhǔn)確地挖掘出冗余指標(biāo)。后續(xù)將在現(xiàn)有研究的基礎(chǔ)上,基于真實(shí)評(píng)估數(shù)據(jù)開展進(jìn)一步研究,完善精簡(jiǎn)評(píng)估指標(biāo)的流程和方法。