薄 云,廖學(xué)軍,白 宇
(1.航天工程大學(xué)研究生院,北京 101416;2.中國白城兵器試驗中心,吉林 白城 137001;3.航天工程大學(xué)航天裝備保障系,北京 102206;4.國防大學(xué)聯(lián)合勤務(wù)學(xué)院,北京 100858)
作為實戰(zhàn)化導(dǎo)向在武器裝備試驗鑒定領(lǐng)域的具體體現(xiàn),作戰(zhàn)試驗通過組織典型作戰(zhàn)人員在模擬的作戰(zhàn)行動中操控擬訂購的武器裝備,以實戰(zhàn)的標(biāo)準(zhǔn)考察武器裝備對于既定任務(wù)的完成程度和適用程度,為管理部門決策是否批量訂購武器裝備提供了最為公正客觀的數(shù)據(jù)參考。已有的理論研究和工程實踐一般認(rèn)為作戰(zhàn)試驗應(yīng)按如下過程組織,即:基于研制總要求和試驗鑒定總案構(gòu)建作戰(zhàn)試驗的指標(biāo)體系和作戰(zhàn)想定,并據(jù)此設(shè)計試驗科目;通過執(zhí)行這些科目采集數(shù)據(jù);最后通過比對數(shù)據(jù)處理結(jié)果與指標(biāo)體系中各指標(biāo)的具體要求,以提供是否批量采購該武器裝備的決策參考。簡言之,該過程的組織邏輯是對照指標(biāo)要求,考察作戰(zhàn)表現(xiàn)。
然而,武器裝備訂購的初衷往往是為了更新?lián)Q代現(xiàn)役裝備。那么,必須明確的一個問題是:“相比于現(xiàn)役裝備,擬訂購的武器裝備究竟能在多大程度上提高作戰(zhàn)能力?”而回答該問題最自然的試驗邏輯是直接比較兩代裝備在同等條件下的作戰(zhàn)表現(xiàn),也就是比對試驗的試驗邏輯。這在制藥、醫(yī)療、工業(yè)、社會管理等多領(lǐng)域得到了廣泛應(yīng)用。雖然我軍在作戰(zhàn)試驗領(lǐng)域還沒有相關(guān)經(jīng)驗,但是美軍已開展了大量的相關(guān)實踐,比較有代表性的是Stryker 旅的作戰(zhàn)試驗。該試驗在相同的作戰(zhàn)條件下比較了Stryker 旅與輕型作戰(zhàn)旅(被稱為基線作戰(zhàn)力量)幾乎所有的考核指標(biāo),以最為直觀的方式鑒定了Stryker 基于增強的移動性與態(tài)勢感知能力而帶來的作戰(zhàn)能力的顯著提升。
鑒于統(tǒng)計學(xué)對于試驗鑒定工作的基礎(chǔ)性支撐作用,并考慮到定量指標(biāo)考核的相關(guān)方法,如t 檢驗、秩和檢驗、ANOVA 等在試驗鑒定工作中已得到廣泛應(yīng)用,而定性指標(biāo)考核還存在一些有待改進的方面,本文剖析了當(dāng)前作戰(zhàn)試驗關(guān)于定性指標(biāo)考核的普遍認(rèn)識;討論了基于ridit 統(tǒng)計方法考核定性指標(biāo)的理論框架,并針對ridit 與分布無關(guān),雖有利于操作和結(jié)果解釋,但卻不利于估算樣本量的特性,研究了基于蒙特卡洛仿真的樣本量估算方法;最后,通過算例演示了該理論框架和樣本量估算的有效性,從而可為后續(xù)作戰(zhàn)試驗的組織實施提供有益參考。
考慮到作戰(zhàn)試驗如何考核定性指標(biāo)的過程實際反映了試驗人員對于定性指標(biāo)本質(zhì)的認(rèn)識。而該認(rèn)識勢必會影響到數(shù)據(jù)模型、統(tǒng)計技術(shù)與評估方法的選擇。因此,本節(jié)概述當(dāng)前作戰(zhàn)試驗考核定性數(shù)據(jù)的普遍做法,并指出可應(yīng)用于比對試驗的可改進的方面。
定性指標(biāo)按其性質(zhì)可分為3 類。其一是“是否”類指標(biāo),如“滿意-不滿意”、“適用-不適用”等,它的取值有兩個,彼此之間有對立的關(guān)系;其二是“定序”類指標(biāo),如“差- 中- 良- 優(yōu)”、“無效- 影響-輕傷-重傷-摧毀”等,它的取值一般有多個,彼此之間有程度的差別;其三是“名義”類指標(biāo),如彈藥類型的“穿甲彈、破甲彈、爆破彈”等,它的取值一般有多個,彼此之間沒有對立關(guān)系和程度差別。在當(dāng)前作戰(zhàn)試驗中,應(yīng)用最廣的是是否定性指標(biāo)和定序定性指標(biāo),簡稱為“是否指標(biāo)”與“定序指標(biāo)”。其考核的一般做法為:
在數(shù)據(jù)建模方面,主要將第一類定性指標(biāo)轉(zhuǎn)化為第二類指標(biāo),如:把“滿意-不滿意”轉(zhuǎn)化為“滿意度1-滿意度2-…-滿意度5”,其中,“滿意度1”表示“最不滿意”,“滿意度5”表示“最滿意”。然后,統(tǒng)一使用次序類指標(biāo)的數(shù)據(jù)建模方式,通行的做法,是以1~5 或1~7 的自然數(shù)分別代表最低級別到最高級別的次序。
在數(shù)據(jù)采集方面,主要是以問卷調(diào)查的方式,問詢作戰(zhàn)試驗中操控武器裝備的作戰(zhàn)人員。
在數(shù)據(jù)處理方面,主要是根據(jù)收回的問卷,對所有問詢的結(jié)果進行加權(quán)平均,然后,以加權(quán)平均值作為該定性指標(biāo)的考核結(jié)果。
在結(jié)果推斷方面,主要是直接比對上述加權(quán)平均值與指標(biāo)的規(guī)定要求。例如:指標(biāo)要求滿意度需大于80%,而問卷調(diào)查結(jié)果的加權(quán)平均值為82%,則認(rèn)為該指標(biāo),即滿意度達到規(guī)定要求。
可以看出,該作戰(zhàn)試驗考核定性指標(biāo)的過程盡可能真實地反映了作戰(zhàn)人員關(guān)于被試武器裝備的態(tài)度和評價,所以據(jù)此也能夠比較公正客觀地提出鑒定和采購的決策建議。但從數(shù)據(jù)科學(xué)的角度分析,該考核過程存在一定的改進空間。
一是以形如1~5 的連續(xù)自然數(shù)的方式將不同等級的定性數(shù)據(jù)定量化可能存在過度的人為界定。例如以1~5 分別代表“無效”、“影響”、“輕傷”、“重傷”、“摧毀”等5 個等級的打擊效果。那么潛在地就認(rèn)為“影響”到“無效”,“輕傷”到“重傷”的打擊效果的跨度是一樣的,或是“影響”是“無效”的打擊效果的兩倍。其他等級之間的跨度關(guān)系與倍數(shù)關(guān)系也與此類似。顯然,這種界定往往是與現(xiàn)實不符的。
二是通過比較加權(quán)平均結(jié)果與指標(biāo)規(guī)定以判定該指標(biāo)是否通過考核的方式存在一定的出錯概率,例如,被試武器裝備的某定性指標(biāo)實際水平低于指標(biāo)規(guī)定,而作戰(zhàn)試驗中抽取的作戰(zhàn)人員卻普遍給出了該指標(biāo)比較高的評價,那么根據(jù)其加權(quán)平均值得出該指標(biāo)應(yīng)通過考核的決策即是錯誤的。當(dāng)然,對于任何決策來說,都存在出錯概率,但以加權(quán)平均值判定考核結(jié)果的方式更為嚴(yán)重的問題是,它難以控制出錯概率。
三是該考核過程通常只能依據(jù)試驗資源的可用水平來估算樣本量。而對于武器裝備試驗鑒定這樣重要的工作來說,顯然結(jié)論的重要性不言而喻,但是該考核過程卻難以回答“為什么要試這么多次”,以及“如果多試××次,結(jié)論的可靠性將提高到××水平”等等這樣的問題。
從數(shù)據(jù)科學(xué)的角度來分析,上述問題主要是當(dāng)前過程未反映出試驗的隨機化本質(zhì),未從概率的角度考核指標(biāo)。一般而言,可以把定性指標(biāo)中的定序指標(biāo)轉(zhuǎn)化為是否指標(biāo),然后都以二分檢驗把定序指標(biāo)轉(zhuǎn)化為通過率的問題,可以實現(xiàn)上述改進。但某些定序指標(biāo)非常難以轉(zhuǎn)化為是否指標(biāo),例如:難以根據(jù)客觀標(biāo)準(zhǔn),把打擊效果這個指標(biāo)從“影響”到“摧毀”的5 個等級轉(zhuǎn)化為“有”和“無”兩個等級。另外,可以看出,當(dāng)某些定序指標(biāo)轉(zhuǎn)化為是否指標(biāo)之后,失去了更加細(xì)分的一些信息。因此,有必要研究如何為定序指標(biāo)的考核實現(xiàn)上述改進。
Ridit(relative to identified distribution unit)是一種非參數(shù)檢驗的分析方法,也即“參照指定分布單位的分析”。它的基本思想是把待考核的定序指標(biāo)看作連續(xù)變量的一種近似,但這個連續(xù)變量無法直接測量,所以使用定序指標(biāo)來反映該變量的各個級別,即以有序指標(biāo)的各個級別對應(yīng)該連續(xù)變量的各個區(qū)間。這些區(qū)間的長度未知,甚至各自的長度也有所不同,但認(rèn)為其彼此相互銜接,如圖1 所示。
圖1 定序指標(biāo)與對應(yīng)連續(xù)變量的關(guān)系
正是由于這些區(qū)間的長度未知,所以當(dāng)前作戰(zhàn)試驗使用連續(xù)自然數(shù)對其量化存在過度認(rèn)為界定的問題。為避免該問題,Ridit 分析很巧妙地定義了一個ridit 得分的概念,它以參照分布的累計概率反映定序指標(biāo)背后的連續(xù)變量本質(zhì)。如圖2 所示,假設(shè)定序指標(biāo)的考核已經(jīng)有了一個參照組,按照順序計算各個級別的經(jīng)驗累計分布(empiricalcumulativedistribution),得到圖2 中的階梯曲線,然后認(rèn)為每一階梯的中點正好對應(yīng)未知連續(xù)變量在該點累計概率的值,即圖2 中的階梯曲線與經(jīng)驗累計概率函數(shù)(ecdf)曲線正好在該點相交。該交點值即為ridit 值。以各級別指標(biāo)在每組數(shù)據(jù)中的出現(xiàn)頻率為權(quán)重,對ridit 值做加權(quán)平均,即可得到每組數(shù)據(jù)的ridit 均值。然后,利用該均值為基本依據(jù),可作各組數(shù)據(jù)之間比較的假設(shè)檢驗,從而更進一步,避免當(dāng)前定序指標(biāo)考核無法控制決策風(fēng)險的情況。最后,從控制假設(shè)檢驗出錯風(fēng)險的角度出發(fā),可以科學(xué)計算出試驗所需的樣本量,從而避免了上述在當(dāng)前定序指標(biāo)考核中存在的第3 個問題。
圖2 ridit 值與連續(xù)變量累積分布的關(guān)系
另外,從ridit 均值的推導(dǎo)過程可以看出,任意兩組結(jié)果的ridit 均值做差值并加上0.5 之后,如果結(jié)果為正數(shù)p,則表示前一組結(jié)果以概率p 由于后一組結(jié)果;反之則以概率p 劣于后一組結(jié)果。這就表ridit 分析不僅能夠評斷不同組結(jié)果的優(yōu)劣,還以概率的形式明確反映了這種優(yōu)劣的程度。這是當(dāng)前定序指標(biāo)考核方法難以做到的。
Step 1:以參照組,也就是基線作戰(zhàn)力量的定序指標(biāo)考核結(jié)果計算ridit 值。具體計算過程如下頁表1 所示,即(0)列出基線作戰(zhàn)力量各級別的頻數(shù);(1)計算各級別頻數(shù)的一半;(2)計算各級別之前的累積頻數(shù),其中最低級之前的累積頻數(shù)為0;(3)計算(1)和(2)列對應(yīng)值的和;計算ridit 值,即(3)列對應(yīng)值除以頻數(shù)總和,即基線作戰(zhàn)力量關(guān)于該指標(biāo)的問卷數(shù)總和。
表1 ridit 值的計算過程表
Step 2:計算被試武器裝備的ridit 均值,即:
Step 3:做假設(shè)檢驗:根據(jù)假設(shè)檢驗的一般原理,如果被試武器裝備沒有顯著提升作戰(zhàn)能力,那么被試武器裝備該指標(biāo)的問卷結(jié)果應(yīng)與基線作戰(zhàn)力量的沒有顯著差別,即二者的結(jié)果分布相同。而如果在此前提下,出現(xiàn)被試武器裝備問卷結(jié)果或者更加極端的情況概率極低,那么這種前提條件就非??梢?,故認(rèn)為二者分布有顯著差別,即被試武器裝備在該指標(biāo)方面取得了顯著提升。
參照文獻[18]的論述,可按如下方法對該指標(biāo)做假設(shè)檢驗為:
在0.05 的顯著性水平下,當(dāng)z 大于1.64 即認(rèn)為被試武器裝備在該指標(biāo)方面得到了顯著提升,否則,認(rèn)為被試武器裝備和基線作戰(zhàn)力量在該指標(biāo)方面沒有差別。
從數(shù)據(jù)科學(xué)的角度估算試驗的樣本量,主要是從假設(shè)檢驗的原假設(shè)和備擇假設(shè)的分布出發(fā),以顯著性水平和統(tǒng)計功效控制假設(shè)檢驗的兩類錯誤為目的,從而以解析的方法精確求解試驗樣本量。可以看出,ridit 分析雖然有操作方便和結(jié)果解釋性強的特點,但它與分布無關(guān),因此,無法利用解析方法精確求解器樣本量,只能使用蒙特卡洛等仿真的手段估算其樣本量。具體可參照如下過程實施:
Step 1:根據(jù)歷史數(shù)據(jù)或相近武器裝備的數(shù)據(jù),構(gòu)建被試武器裝備與基線作戰(zhàn)力量的經(jīng)驗概率分布率,記定序指標(biāo)的級別數(shù)為k;
Step 2:設(shè)定試驗的顯著性水平α、統(tǒng)計功效(1-β)和仿真的循環(huán)次數(shù)m;
設(shè)待考核指標(biāo)為毀傷效果,其級別數(shù)為7,根據(jù)基線作戰(zhàn)力量的歷史數(shù)據(jù)和被試武器裝備在研制試驗的相關(guān)數(shù)據(jù)如表2 中括號外數(shù)值所示。
表2 相關(guān)歷史數(shù)據(jù)及其分布律
首先估算試驗樣本量:
Step 1:根據(jù)表2 計算基線作戰(zhàn)力量與被試武器裝備毀傷效果的經(jīng)驗分布律,如表2 括號內(nèi)數(shù)值所示:
Step 2:設(shè)定試驗的顯著性水平α=0.05、統(tǒng)計功效(1-β)=0.80 和仿真的循環(huán)次數(shù)m=500;
Step 3:設(shè)定初始樣本量n=7;
圖3 樣本量計算過程演示
然后,以n=16 為樣本量,做毀傷效果的比對試驗。假設(shè)得到數(shù)據(jù)結(jié)果如表3 所示。
表3 模擬試驗數(shù)據(jù)及ridit 分析結(jié)果表
Step 1:以參照組,也就是基線作戰(zhàn)力量的定序指標(biāo)考核結(jié)果計算ridit 值,如表3 第2 列括號內(nèi)數(shù)值所示;
Step 2:計算被試武器裝備的ridit 均值,其結(jié)果如表3 合計欄中括號內(nèi)第1 個數(shù)值所示;
Step 3:做假設(shè)檢驗并作結(jié)果解釋:首先計算被試武器裝備ridit 均值的標(biāo)準(zhǔn)差,其結(jié)果如表3 合計欄中括號內(nèi)第2 個數(shù)值所示;其次計算統(tǒng)計量z的值為3.64,由于z 大于0.05 顯著性水平下的臨界值1.64,故得出結(jié)論“被試武器裝備的毀傷效果指標(biāo)在顯著性水平為0.05 的情況下,顯著優(yōu)于基線作戰(zhàn)力量;由于其ridit 均值為0.869,故被試武器裝備在毀傷效果方面以0.869 的概率優(yōu)于基線作戰(zhàn)力量”。
本文針對我軍未來可能采用比對形式開展作戰(zhàn)試驗的實際情況,基于ridit 分析構(gòu)建了作戰(zhàn)試驗比對試驗中定序數(shù)據(jù)的考核框架,并給出了該類試驗估算樣本量的方法,通過算例演示可以看出:
1)相比較于當(dāng)前定性指標(biāo)考核中存在的人為過度界定的情況,基于ridit 分析的定序指標(biāo)考核框架使用基線作戰(zhàn)力量的累積概率分布作為定序指標(biāo)的各級別賦值,更加科學(xué)嚴(yán)謹(jǐn);
2)通過算例演示可以看出,基于ridit 分析的定序指標(biāo)考核框架操作并不復(fù)雜,但利用顯著性水平和統(tǒng)計功效可以很好地控制結(jié)論的出錯概率,尤其是依據(jù)ridit 均值可以明確回答被試武器裝備優(yōu)于(或劣于)基線作戰(zhàn)力量的概率水平,這是當(dāng)前定性指標(biāo)考核直接比較加權(quán)平均值與指標(biāo)要求的做法無法比擬的;
3)通過算例演示同樣可以看出,基于蒙特卡洛仿真估算該考核框架的試驗樣本量的核心在于構(gòu)建經(jīng)驗概率分布率,因此,豐富的驗前信息對于試驗的組織是非常重要的,可以想見,驗前信息越豐富越準(zhǔn)確,樣本量的計算會越準(zhǔn)確,試驗的綜合效益也會越高;
4)本文論述的考核框架針對的是一對一的被試武器裝備與基線作戰(zhàn)力量,但稍作調(diào)整,該框架及其樣本量估算方法可以擴充為一對多的被試武器裝備與基線作戰(zhàn)力量的比對試驗,因此,可為我軍未來該類型試驗起到很好的決策參考;
5)本文討論的是定序指標(biāo)的考核問題,即關(guān)注如何評判武器裝備單項指標(biāo)的通過情況。當(dāng)前作戰(zhàn)試驗在完成各單項指標(biāo)考核之后,通常還需評估武器裝備的總體或某一方面能力。很顯然,前者是后者的基礎(chǔ),但兩者并不完全等同。前者主要基于統(tǒng)計學(xué)中的假設(shè)檢驗,回答指標(biāo)的“通過與否”;后者主要基于決策理論的效能評估方法,回答能力的“優(yōu)秀程度”。在實踐中,需加以把握。