作戰(zhàn)試驗(yàn)定性數(shù)據(jù)處理及樣本量估算方法*

2021-09-08 12:10:30廖學(xué)軍白洪波

火力與指揮控制 2021年8期

薄云，廖學(xué)軍，白洪波，白宇

（1.航天工程大學(xué)研究生院，北京 101416；2.中國白城兵器試驗(yàn)中心，吉林白城 137001；3.航天工程大學(xué)航天保障系，北京 102206；4.國防大學(xué)聯(lián)合勤務(wù)學(xué)院，北京 100039）

0 引言

武器裝備的試驗(yàn)鑒定涉及大量指標(biāo)考核。文獻(xiàn)［1］針對如何評價(jià)航天領(lǐng)域高科技成果，從技術(shù)性、社會(huì)性、經(jīng)濟(jì)性3 個(gè)維度提出了成熟性、可替代性、實(shí)用性，勞動(dòng)生產(chǎn)率貢獻(xiàn)度等18 個(gè)指標(biāo)；文獻(xiàn)［2-6］針對如何評估多型無人機(jī)的作戰(zhàn)效能，從攻擊、突防、導(dǎo)航、態(tài)勢感知、完備性、準(zhǔn)確性、連續(xù)性、時(shí)效性、相關(guān)性、共享度等維度提出了掛載量、精度系數(shù)、發(fā)現(xiàn)目標(biāo)能力、雷達(dá)散射截面、信息接受能力等26、7、19、17、25 個(gè)指標(biāo)?？梢钥闯?，其考核指標(biāo)均可劃分為兩類。一是定量指標(biāo)，如雷達(dá)散射截面、定位時(shí)間、精度系數(shù)、掛載量等；二是定性指標(biāo)，如工作可靠度、任務(wù)可執(zhí)行度、成熟性等。定量指標(biāo)的物理含義明確，基于已有數(shù)據(jù)可構(gòu)建概率分布，從而客觀考核指標(biāo)；而定性指標(biāo)一般用于衡量主觀感受，物理含義并不明確，難以直接套用定量指標(biāo)的考核方法。

作戰(zhàn)試驗(yàn)［7-10］作為武器裝備試驗(yàn)鑒定研究的熱點(diǎn)問題，現(xiàn)已形成一批理論成果，各軍兵也已基本完成構(gòu)建所轄武器裝備的作戰(zhàn)試驗(yàn)指標(biāo)體系［11］，下一步將加速推進(jìn)體系中各類指標(biāo)的考核科學(xué)化?？紤]到我軍在長期的定型試驗(yàn)鑒定實(shí)踐［12］中積累的大量定量指標(biāo)考核理論與方法也基本適用于作戰(zhàn)試驗(yàn)，但作戰(zhàn)試驗(yàn)由于其鮮明的實(shí)戰(zhàn)化特點(diǎn)，需根據(jù)模擬作戰(zhàn)任務(wù)的完成程度和武器裝備對于任務(wù)的適應(yīng)程度來判斷武器裝備是否達(dá)到指標(biāo)要求［13］，因此，作戰(zhàn)試驗(yàn)勢必存在大量定性指標(biāo)，而這些定性指標(biāo)考核基本沒有定型試驗(yàn)的經(jīng)驗(yàn)可供借鑒，故本文首先針對當(dāng)前作戰(zhàn)試驗(yàn)定性指標(biāo)結(jié)論推斷存在的問題，提出了基于二分檢驗(yàn)的推論框架；其次，鑒于樣本量估算對于試驗(yàn)任務(wù)經(jīng)濟(jì)性、科學(xué)性的重要影響，討論了定性類指標(biāo)考核的樣本量估算方法；最后，演示了該推論框架及樣本量估算方法的有效性。

1 作戰(zhàn)試驗(yàn)定性指標(biāo)考核現(xiàn)狀

1.1 基本過程

定性變量又稱分類變量，它是只能以有限取值或類別加以度量的變量，具體又分為二分變量、名義變量和定序變量［14］。二分變量只有含義完全相反的兩個(gè)取值；名義變量有有限個(gè)取值，彼此沒有先后、好壞的差別；定序變量有有限取值，但這些取值含有先后、好壞等差別。

當(dāng)前，作戰(zhàn)試驗(yàn)中的定性指標(biāo)一般以類似“某型衛(wèi)星通信系統(tǒng)在典型海事任務(wù)中的通話質(zhì)量滿意度大于80%”的方式提出規(guī)定要求；以問卷調(diào)查的形式采集數(shù)據(jù)；以定義各種可能結(jié)果與特定數(shù)值的映射關(guān)系（如“非常不滿意-1”、“不滿意-2”、“基本滿意-3”、“滿意-4”、“非常滿意-5”），使定性的主觀感受具備某種定量特征；然后利用加權(quán)平均獲得指標(biāo)綜合結(jié)果，如該結(jié)果的數(shù)值大于指標(biāo)規(guī)定的數(shù)值，則認(rèn)為該項(xiàng)指標(biāo)考核通過。

1.2 可改進(jìn)的方面

由于這些試驗(yàn)的結(jié)論是在近似實(shí)戰(zhàn)條件下由專業(yè)作戰(zhàn)人員“試用”武器裝備后得出的，因此，具備很高的可信度，但經(jīng)分析仍可得到3 個(gè)方面的提高。

1）避免過度設(shè)定客觀事實(shí)。例如：實(shí)踐中一般以“1”、“2”、“3”、“4”、“5”作為滿意度從“非常不滿意”到“非常滿意”的得分，并用加權(quán)平均值作為最終的滿意度得分。但是很顯然，“非常滿意”的滿意程度未必是“非常不滿意”的滿意程度的5 倍，另外，滿意程度從“非常不滿意”到“不滿意”的跨度未必和“滿意”到“非常滿意”的跨度正好一致，于是其加權(quán)平均值也未必客觀反映滿意度。

2）體現(xiàn)試驗(yàn)的隨機(jī)本質(zhì)。很顯然，試驗(yàn)是一個(gè)隨機(jī)抽樣過程［7］，依據(jù)樣本得出的結(jié)果是隨機(jī)變量，那么很顯然，依據(jù)樣本的加權(quán)平均滿意度來推斷武器裝備的滿意度是否通過考核必然存在出錯(cuò)概率。更為重要的是，當(dāng)前依據(jù)加權(quán)平均值判斷指標(biāo)是否合格的方法并未控制該出錯(cuò)概率。

3）準(zhǔn)確估算試驗(yàn)的樣本量。以上通過加權(quán)值判斷指標(biāo)是否通過考核的方式往往只能依據(jù)資源可承受水平來估算樣本量，未能充分利用其余的決策支持信息，在樣本量估算的科學(xué)化水平上還有很大的提升空間。

2 應(yīng)對策略

2.1 基于比率考核定性指標(biāo)

作戰(zhàn)試驗(yàn)的定性指標(biāo)大部分是以某種“度”的形式加以提出的，例如滿意度、適應(yīng)度、共享度等。考慮到武器裝備的這些定性指標(biāo)限定為只有“是”、“否”兩個(gè)選項(xiàng)，那么對于某一作戰(zhàn)人員來說，對其回答要么是肯定的，要么是否定的，只是“是”“否”選項(xiàng)的概率不一樣。設(shè)其回答“是”的概率為p，則回答“否”的比率為1-p。

由于在相近的武器裝備水平和軍事訓(xùn)練水平下服役的作戰(zhàn)人員對于武器裝備的優(yōu)劣具有大體近似的認(rèn)識(shí)水平，所以雖然各作戰(zhàn)人員針對某項(xiàng)定性指標(biāo)回答“是”的概率存在差異，但應(yīng)該差異不大。因此，可以進(jìn)一步假設(shè)對于擬列裝被試武器裝備的作戰(zhàn)部隊(duì)來說，其作戰(zhàn)人員對于某項(xiàng)定性指標(biāo)回答“是”的概率都為p。更進(jìn)一步，如果這些作戰(zhàn)部隊(duì)使用該被試裝備，并要求所有作戰(zhàn)人員對該定性指標(biāo)作出評價(jià)，那么答案“是”在所有答案中的比率也為p。

可見，以比率的方式定義定性指標(biāo)具有良好的邏輯自洽性。它很好地規(guī)避了以人為設(shè)定的多水平定義定性指標(biāo)可能帶來的可信性問題，并且相對后者難以圓滿解釋加權(quán)平均結(jié)果的確切含義的情況而言，其結(jié)果的實(shí)際含義非常明確，對于作戰(zhàn)使用和裝備管理的指導(dǎo)性也更強(qiáng)。

2.2 以二分檢驗(yàn)推斷考核結(jié)果

為體現(xiàn)試驗(yàn)的隨機(jī)抽樣本質(zhì)，可參照如下的二分檢驗(yàn)［14］過程。假設(shè)希望通過作戰(zhàn)試驗(yàn)推斷被試武器裝備的滿意度是否大于80%，抽選了n 名參試作戰(zhàn)人員，抽樣所得數(shù)據(jù)y→=［y1，y2，…，yn］。其中：

也即在n 名參加作戰(zhàn)試驗(yàn)的作戰(zhàn)人員中，給出“滿意”態(tài)度的人數(shù)總和s 服從參數(shù)為n 與p0的二項(xiàng)分布，記為s～b（n，p0）。其概率分布圖形如圖1所示。

圖1 二項(xiàng)分布概率分布示意圖

圖1 的陰影部分表示了所有s≥s0情況下的發(fā)生概率總和。它表達(dá)的含義是作戰(zhàn)人員總數(shù)為n，滿意度為p0的情況下，出現(xiàn)樣本y→n，以及比y→n更極端情況的概率：

如果P（i≥s0）非常小，則表示得出該概率的前提條件，即滿意度為p0（或者更?。┑慕Y(jié)論非?？梢?，應(yīng)當(dāng)考慮接受其相反結(jié)論，即滿意度p＞p0。這就是基于二分檢驗(yàn)考核定性指標(biāo)的基本原理。

可以看出，該過程反映了試驗(yàn)的隨機(jī)本質(zhì)，更為重要的是它可以明確給出“通過考核”的錯(cuò)誤概率（即P（i≥s0））是多少。這種錯(cuò)誤在統(tǒng)計(jì)學(xué)中被稱為第1 類錯(cuò)誤，其發(fā)生概率的可接受水平被稱為顯著性水平，通常記作α［15］。與之相對的是第2 類錯(cuò)誤，它是本應(yīng)給出“通過考核”但卻認(rèn)為指標(biāo)不合格的錯(cuò)誤，它的發(fā)生概率的補(bǔ)數(shù)稱為統(tǒng)計(jì)功效，通常記作（1-β）。其中，β 是第2 類錯(cuò)誤的發(fā)生概率［15］。它們的關(guān)系如圖2 所示。

圖2 原假設(shè)、備擇假設(shè)、顯著性水平與統(tǒng)計(jì)功效的示意圖

2.3 依據(jù)客觀準(zhǔn)則估算樣本量

2.3.1 估算的客觀準(zhǔn)則

影響試驗(yàn)樣本量的因素很多，比如資金消耗、日程安排、資源的可配置情況、以及試驗(yàn)結(jié)論的可靠性等等，但最根本的影響因素還是試驗(yàn)結(jié)論的可靠性。如前所述，顯著性水平α、統(tǒng)計(jì)功效（1-β）是控制兩類錯(cuò)誤的重要工具。但實(shí)際工作中，常常忽略統(tǒng)計(jì)功效，甚至很多頂級刊物也無法避免［16-19］。如圖3 所示，對某一個(gè)特定的研究問題而言，所有正確的備擇假設(shè)占所有假設(shè)的比例分別為50 %和10 %時(shí)，通過假設(shè)檢驗(yàn)找出正確結(jié)論的比例ppv（positive predictive value），會(huì)隨著統(tǒng)計(jì)功效的降低而迅速降低。

圖3 ppv 隨（1-β）變化的示意圖

在圖3 中，如果指標(biāo)實(shí)際并未達(dá)標(biāo)，其被正確識(shí)別的比例proppm用綠色色塊表示，被錯(cuò)誤識(shí)別（即第1 類錯(cuò)誤）的比例propnn用紅色色塊來表示；如果指標(biāo)確實(shí)達(dá)標(biāo)，其被正確識(shí)別的比例proppa用藍(lán)色色塊表示，被錯(cuò)誤識(shí)別（即第2 類錯(cuò)誤）的比例propna用灰色色塊表示。設(shè)真正達(dá)標(biāo)的武器裝備的比例為：

可以看出，當(dāng)propeff=0.5 時(shí)（上3 幅分圖的情況），若（1-β）分別為0.2、0.5 和0.8，ppv 則分別為0.80、0.91 和0.94；當(dāng)propeff=0.1 時(shí)（下3 幅分圖的情況），若（1-β）分別為0.2、0.5 和0.8 時(shí)，ppv 則分別為0.31、0.53 和0.64。即得出真正正確結(jié)論的比例，會(huì)隨著統(tǒng)計(jì)功效的降低而迅速降低。由于武器裝備是否具備宣稱的創(chuàng)新成效直接關(guān)系到作戰(zhàn)人員的生命安危和戰(zhàn)爭的勝敗，而圖3 中，當(dāng)propeff=0.1，（1-β）=0.2 時(shí)，ppv 僅為0.31，即在10 型通過作戰(zhàn)試驗(yàn)的武器裝備中，大約只有3 型才真正具備宣稱的作戰(zhàn)效能和作戰(zhàn)適用性。這種結(jié)果顯然是災(zāi)難性的。因此，在作戰(zhàn)試驗(yàn)中，在確定顯著性水平以控制第1 類錯(cuò)誤的基礎(chǔ)上，必須確保統(tǒng)計(jì)功效以控制第2 類錯(cuò)誤。

2.3.2 估算的方法步驟

基于以上討論，作戰(zhàn)試驗(yàn)依據(jù)二分檢驗(yàn)考核定性指標(biāo)的樣本量估算可按如下流程實(shí)施。

第1 步，由武器裝備的研制總要求得出定性指標(biāo)的具體要求，構(gòu)建假設(shè)檢驗(yàn)；

第2 步，根據(jù)武器裝備的研制試驗(yàn)或前期其他試驗(yàn)，估計(jì)武器裝備該指標(biāo)的實(shí)際水平；

第3 步，確定試驗(yàn)期望達(dá)到的顯著性水平α 和統(tǒng)計(jì)功效（1-β）；

第4 步，設(shè)樣本量n 為1；

第5 步，計(jì)算在前述設(shè)定的p0、pa、α 情況下的臨時(shí)統(tǒng)計(jì)功效（1-β）temp，并計(jì)算（1-β）temp和期望達(dá)到的（1-β）差值的絕對值Δ（1-β）；

第6 步，令n=n+1，重復(fù)第5 步，直至Δ（1-β）最小。此時(shí)的n 即為滿足以上條件的樣本量。

3 算例演示

3.1 樣本量估算的過程演示

假設(shè)研制總要求規(guī)定某型衛(wèi)星通信終端通話質(zhì)量的滿意度大于80%，則計(jì)算過程如下：

第1 步：定義p 為滿意度水平，構(gòu)建假設(shè)檢驗(yàn)H0：p≤p0=0.80，Ha：p≥p0=0.80；

第2 步：通過考察該型衛(wèi)星通信終端的研制試驗(yàn)、早期作戰(zhàn)評估、作戰(zhàn)評估的相關(guān)數(shù)據(jù)，估計(jì)pa的實(shí)際水平大約為0.91；

第3 步：設(shè)定假設(shè)檢驗(yàn)的顯著性水平α=0.05，期望達(dá)到的統(tǒng)計(jì)功效（1-β）=0.80；

第4 步：設(shè)定試驗(yàn)所需的樣本量n=1；

迭代第5 步與第6 步的運(yùn)算：由已設(shè)定的α=0.05、期望達(dá)到的（1-β）=0.80、估計(jì)的pa=0.91，從n=1 開始，以1 為步長遞增n，計(jì)算在n 取各值情況下的Δ（1-β）。迭代運(yùn)算結(jié)果如圖4 所示。通過比較，取使Δ（1-β）達(dá)到最小數(shù)值0.002 7 的n 值，即72，作為待求的樣本量。在此樣本量n 條件下H0、Ha、α、（1-β）的關(guān)系如圖5 所示。

圖4 迭代求取滿足α 和（1-β）的樣本量n 的過程示意圖

圖5 在已求取樣本量n 情況下的二分檢驗(yàn)示意圖

3.2 考核定性指標(biāo)的有效性演示

首先設(shè)定仿真參數(shù)為n= 72、α=0.05、p0=0.80、pa=0.91；

其次以50 為步長，設(shè)定仿真次數(shù)tsim為50 至10 000；

接著在tsim的每次仿真中生成100 組長度為n=72、滿意度pa=0.91 的（“滿意”、“不滿意”）二分隨機(jī)向量y→sim，計(jì)算y→sim中結(jié)果為“滿意”的總數(shù)ssim，并計(jì)算在以n=72、p0=0.80 為參數(shù)的二項(xiàng)分布中出現(xiàn)比ssim及比ssim更極端的發(fā)生概率psim，如果psim＜α，則表示模擬的樣本數(shù)據(jù)y→sim支持Ha；記該組100 個(gè)y→sim支持的Ha總數(shù)為ty（a），ty（a）/100 即為tsim的每次仿真中算得的經(jīng)驗(yàn)統(tǒng)計(jì)功效（1-β）exp（y）；當(dāng)tsim次仿真均做完之后，以tsim個(gè)（1-β）exp（y）的平均數(shù)（1-β）exp作為與tsim相對應(yīng)的經(jīng)驗(yàn)統(tǒng)計(jì)功效；

最后，當(dāng)完成所有按照tsim所做的仿真之后，統(tǒng)計(jì)與tsim相對應(yīng)的（1-β）exp，形成如圖6 所示的最終結(jié)果。

通過觀察圖6 可以看出，經(jīng)驗(yàn)統(tǒng)計(jì)功效（1-β）exp大致以0.803 為中心，在（0.796，0.808）的范圍內(nèi)上下波動(dòng)，并隨著tsim的增大而迅速收斂值0.803。由此可證明，本文給出的基于二分檢驗(yàn)考核定性數(shù)據(jù)及其樣本量的估算方法可有效滿足作戰(zhàn)試驗(yàn)控制兩類錯(cuò)誤風(fēng)險(xiǎn)的客觀需求。

圖6 算法有效性驗(yàn)證示意圖

4 關(guān)于方法應(yīng)用的討論

4.1 Δ（1-β）可能存在多個(gè)最小值的處理

通過圖4 可以看出，在求取滿足α 和（1-β）需求的樣本量n 的過程中，Δ（1-β）在下降至最小值再增大的過程波動(dòng)非常劇烈，而不是一個(gè)平滑變化的過程。這主要是由于定性數(shù)據(jù)的精確檢驗(yàn)方法，無論是原假設(shè)，還是被擇假設(shè)，其分布率均為離散函數(shù)，所以在求取樣本量的過程中計(jì)算Δ（1-β）可能會(huì)產(chǎn)生如圖4 所示的震蕩過程。為了應(yīng)對這一情況，建議在實(shí)踐中如果出現(xiàn)多個(gè)備選樣本量n 使得Δ（1-β）達(dá)到最低點(diǎn)的情況，選擇這幾個(gè)備選n 中選擇處于中間位置的n。

4.2 驗(yàn)前信息對于樣本量估算的影響

圖7 給出了通過以上方法求取的樣本量n 的變化趨勢。其中，實(shí)線趨勢曲線為p0=0.7，pa取各值情況下樣本量n 的變化趨勢；虛線趨勢曲線為pa=0.7，p0取各值情況下樣本量n 的變化趨勢?？梢钥闯觯瑹o論固定了p0或pa的任何一方，在另一方作為變量的情況下，g=pa-p0越大，則所需的樣本量越小。g 在統(tǒng)計(jì)學(xué)中被稱作效應(yīng)量［20］，它反映了備擇假設(shè)的顯著性程度。

圖7 樣本量n 變動(dòng)趨勢示意圖

由于作戰(zhàn)試驗(yàn)前無法知道g 的真實(shí)值，只能利用研制試驗(yàn)、早期作戰(zhàn)評估、作戰(zhàn)評估的相關(guān)數(shù)據(jù)，或者在驗(yàn)前先小規(guī)模組織相關(guān)測試，采集相關(guān)數(shù)據(jù)，從而對g 進(jìn)行估計(jì)。g 估計(jì)得越準(zhǔn)確，則樣本量估算得越準(zhǔn)確，相應(yīng)試驗(yàn)資源的綜合效益也越高。

4.3 更復(fù)雜數(shù)據(jù)的處理

本文提出的方法對于作戰(zhàn)試驗(yàn)中定性數(shù)據(jù)處理及其樣本量估算的大部分情形來說是足夠適用的。雖然這些方法是針對單個(gè)試驗(yàn)樣本考察其是否達(dá)到研制總要求規(guī)定的特定指標(biāo)，但是稍加變形，也可以處理被試武器裝備相對于基線作戰(zhàn)力量的定性數(shù)據(jù)處理。

另外，針對一些特殊的定性數(shù)據(jù)，需要使用一些特殊的數(shù)據(jù)處理方法，例如定序數(shù)據(jù)的相關(guān)處理方法。這些問題的假設(shè)檢驗(yàn)過程還比較直觀，但其概率分布函數(shù)或分布律非常復(fù)雜，難以精確估算樣本量，必要時(shí)需要使用蒙特卡洛仿真求解。

5 結(jié)論

通過分析當(dāng)前作戰(zhàn)試驗(yàn)的指標(biāo)考核現(xiàn)狀，本文指出它可以在避免過度設(shè)定事實(shí)、反映試驗(yàn)的隨機(jī)本質(zhì)和樣本量計(jì)算3 個(gè)方面得到科學(xué)化水平的提升。以定性指標(biāo)考核為例，本文研究了引入二分檢驗(yàn)和基于統(tǒng)計(jì)功效的樣本量估算來實(shí)現(xiàn)提升的途徑。通過某型衛(wèi)星通信終端通話質(zhì)量滿意度考核的具體算例，本文演示了該途徑實(shí)現(xiàn)以上3 方面提升的實(shí)際效果。最后，針對該實(shí)現(xiàn)途徑在實(shí)際考核中可能會(huì)出現(xiàn)的一些特殊情形，本文討論了相應(yīng)的處置辦法，從而為后續(xù)作戰(zhàn)試驗(yàn)的相關(guān)實(shí)踐提供了有益參考。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看