朱彥龍, 程銀寶, 高宏堂, 王 燕,施江煥, 羅 哉, 李亞茹
(1.中國計(jì)量大學(xué),浙江 杭州 310018; 2.中國計(jì)量科學(xué)研究院,北京 100029;3.沈陽飛機(jī)工業(yè)(集團(tuán))有限公司,遼寧 沈陽 110850;4.寧波市計(jì)量測試研究院,浙江 寧波 315048)
近年來,非統(tǒng)計(jì)不確定度評(píng)定方法的研究極大地促進(jìn)了不確定度理論的發(fā)展,其中灰色系統(tǒng)理論評(píng)定不確定度的方法憑借著無需數(shù)據(jù)分布,對(duì)小樣本同樣適用[1]等優(yōu)點(diǎn)吸引著不少學(xué)者。工程應(yīng)用中,樣本容量n滿足10≤n≤30時(shí)為小樣本,當(dāng)樣本容量n<10時(shí)為極小樣本[2,3]。由于極小樣本數(shù)據(jù)所含的信息量極少,評(píng)定其不確定度困難較大,用傳統(tǒng)灰色方法對(duì)極小樣本數(shù)據(jù)的不確定度評(píng)定問題進(jìn)行的研究非常少,這些研究表明,經(jīng)典灰色系統(tǒng)理論評(píng)定不確定度在從小樣本到極小樣本的過渡過程中,標(biāo)準(zhǔn)差計(jì)算結(jié)果的相對(duì)誤差在迅速增大[4],因此有必要研究灰色系統(tǒng)理論在極小樣本條件下的改進(jìn)算法。
Ma等通過Bootstrap技術(shù)研究小樣本數(shù)據(jù)集的不確定度問題,并用實(shí)例分析了該方法的可靠性[5];Wang 等提出了小樣本數(shù)據(jù)的灰自助處理方法,并與灰色系統(tǒng)理論、自助法做了對(duì)比,得出結(jié)論灰自助法在小樣本動(dòng)態(tài)信號(hào)估計(jì)方面具有優(yōu)勢[6];郭曉嫻等通過虛擬樣本增廣方法與Bootstrap方法,對(duì)樣本量為1的數(shù)據(jù)進(jìn)行擴(kuò)充,進(jìn)而研究了軸承磨損壽命的可靠性評(píng)估問題[7];Cao等混合了虛擬樣本增廣法和Bootstrap法,證明了混合方法比半經(jīng)驗(yàn)法在解決極小樣本數(shù)據(jù)問題上更加有效[8];王中宇等通過徑向基函數(shù)(RBF)神經(jīng)網(wǎng)絡(luò)和灰色系統(tǒng)理論解決了小樣本虛擬儀器測量不確定度的評(píng)定問題[9];黃家成提出基于灰色系統(tǒng)理論和貝葉斯信息融合理論評(píng)定小樣本自動(dòng)測試系統(tǒng)(automatic test system,ATS)測量不確定度的新方法[10];Han針對(duì)小樣本和未知分布提出了一種基于灰色關(guān)聯(lián)系數(shù)的測量不確定度的灰色評(píng)價(jià)方法[11]。
由于極小樣本數(shù)據(jù)的信息缺失較為嚴(yán)重,灰色系統(tǒng)理論難以從中提取出規(guī)律,評(píng)定不確定度時(shí)出現(xiàn)較大偏差,因此,提出改進(jìn)的灰色不確定度評(píng)定方法,認(rèn)為極小樣本數(shù)據(jù)是一組不平衡數(shù)據(jù)集中的少數(shù)類,通過改進(jìn)的合成少數(shù)類過采樣技術(shù)(synthetic minority oversampling technique,SMOTE)挖掘原始樣本所蘊(yùn)含的信息,再通過支持向量回歸(support vector regression,SVR)模型從挖掘得到的信息中預(yù)測一定量的樣本,最后將所得預(yù)測數(shù)據(jù)與原始數(shù)據(jù)融合為灰色小樣本數(shù)據(jù)集,進(jìn)行灰色不確定度評(píng)定。最后通過計(jì)算機(jī)模擬數(shù)據(jù)與實(shí)驗(yàn)數(shù)據(jù)分別驗(yàn)證了模型的可靠性和泛化性。
灰色系統(tǒng)理論按照顏色來區(qū)分不同的系統(tǒng),其中“灰”是介于“黑”和“白”之間的,黑色系統(tǒng)是指系統(tǒng)的輸入輸出等表層關(guān)系已知、系統(tǒng)內(nèi)外部變化關(guān)系不明確、系統(tǒng)內(nèi)部結(jié)構(gòu)原理未知的系統(tǒng),白色系統(tǒng)是指系統(tǒng)的所有信息都明確的系統(tǒng),而其他處于兩者之間的系統(tǒng),就是灰色系統(tǒng)。一個(gè)測量系統(tǒng)是一個(gè)典型的灰色系統(tǒng),測量得到的結(jié)果就是灰色量。灰色系統(tǒng)理論提出采用累加生成的數(shù)據(jù)處理方式探求數(shù)據(jù)中的內(nèi)在規(guī)律[12]。
2.2.1 SMOTE原理分析
SMOTE[13]是一種過采樣方法,通過在少數(shù)類樣本之間線性插值以獲得人工合成樣本,改善數(shù)據(jù)的均衡性。運(yùn)用SMOTE合成新樣本的基本原理如圖1 所示。
圖1 SMOTE合成新樣本原理
設(shè)有一少數(shù)類X,樣本量為n,對(duì)于每一個(gè)少數(shù)類樣本xi,(i=1,2,…,n)通過計(jì)算xi與xj(j=1,2,…n且j≠i)之間的距離找到xi的k個(gè)近鄰樣本,隨機(jī)挑選一個(gè)近鄰樣本xl與xi構(gòu)成一條線段,通過式(1)進(jìn)行線性插值合成新的樣本xnew。
xnew=xi+rand(0,1)×(xl-xi)
(1)
式中:rand(0,1)指區(qū)間[0,1]上服從均勻分布的隨機(jī)數(shù)。上述過程重復(fù)N次,可合成(n×N)個(gè)樣本。
2.2.2 SVR原理分析
SVR是由支持向量機(jī)(SVM)引申出的數(shù)據(jù)回歸模型,其關(guān)鍵在于尋找一個(gè)能夠使最多樣本點(diǎn)分布在其附近的超平面,對(duì)于非線性問題,已知樣本D={(x1,y1),(x2,y2),…,(xn,yn)},設(shè)樣本空間的樣本點(diǎn)經(jīng)過映射ψ(x)變換到高維的特征空間,則超平面方程可表示為f(x)=wTψ(x)+b,其中w為超平面的權(quán)向量,b為偏置向量。SVR的求解模型為:
(2)
(3)
ε為不敏感損失參數(shù),根據(jù)需要取定。解算后SVR模型的形式[14]如下:
i=1,2,…,n
(4)
2.2.3 改進(jìn)的測量不確定度灰色評(píng)定模型
對(duì)于極小樣本的測量數(shù)據(jù)列X,假設(shè)其服從某分布P,而服從P分布的所有數(shù)據(jù)構(gòu)成數(shù)據(jù)集D,則數(shù)據(jù)集D具有不平衡的特性,即已知數(shù)據(jù)列X與未知數(shù)據(jù)列(D-X)的樣本數(shù)量不在同一個(gè)數(shù)量級(jí)。想要通過X直接估計(jì)數(shù)據(jù)集D的參數(shù)較為困難,SMOTE算法思想可以有效地改善數(shù)據(jù)集的不平衡特性。
(5)
設(shè)置n為5、q為100、k為3,運(yùn)用原始的SMOTE算法后,可以發(fā)現(xiàn)式(5)恒大于0,即表明運(yùn)用原始SMOTE算法合成大量的新樣本將造成數(shù)據(jù)列的離散性降低,改變了極小樣本數(shù)據(jù)列的信息,這與本文將運(yùn)用SMOTE挖掘極小樣本信息的目的不符。為了能夠改善上述問題,對(duì)模型(1)進(jìn)行改進(jìn),將模型中的rand(0,1)改為rand(a,b),其中參數(shù)a、b與原始樣本數(shù)量與合成新樣本的數(shù)量有關(guān),在(0,1)區(qū)間兩側(cè)對(duì)稱取值。則SMOTE的數(shù)學(xué)模型變?yōu)?
xnew=xi+rand(a,b)×(xl-xi)
(6)
為了確定參數(shù)a、b的值,通過計(jì)算機(jī)隨機(jī)生成5 000組極小樣本數(shù)據(jù)列,每組的樣本容量為5,各組單獨(dú)進(jìn)行實(shí)驗(yàn),則進(jìn)行SMOTE時(shí)n=5、q=100、k=3。每組實(shí)驗(yàn)中,確定最優(yōu)的a、b值,使新合成的樣本與原始樣本混合后的標(biāo)準(zhǔn)差和混合前原始樣本的標(biāo)準(zhǔn)差在保留2位有效數(shù)字的情況下相等。實(shí)驗(yàn)完成后對(duì)a、b值進(jìn)行統(tǒng)計(jì),統(tǒng)計(jì)結(jié)果詳見圖2。結(jié)果表明,a值有99%的概率落在[-0.8,-0.4]范圍內(nèi),b值有99%的概率落在[1.4,1.8]范圍內(nèi),則a、b分別取峰值-0.6和1.6時(shí)可以使模型(6)具有最大的泛化性。
圖2 a、b值統(tǒng)計(jì)特性
(7)
式中:c稱為灰色常系數(shù),其大小通過計(jì)算機(jī)算法仿真得到,通??扇?.5。
SMOTE的原理決定了其合成的新樣本具有一定的浮動(dòng)性,但同一次SMOTE后的若干組預(yù)測數(shù)據(jù)的標(biāo)準(zhǔn)差之間滿足統(tǒng)計(jì)規(guī)律,對(duì)某隨機(jī)數(shù)據(jù)列執(zhí)行上述步驟1)~3)后循環(huán)執(zhí)行步驟4)~10) 共5 000次,對(duì)5 000次運(yùn)行結(jié)果進(jìn)行統(tǒng)計(jì),得到如圖3(a)所示的直方圖,由圖可知服從正態(tài)分布,取均值表示此次SMOTE后的數(shù)據(jù)標(biāo)準(zhǔn)差普遍水平。同時(shí),對(duì)于同一組原始數(shù)據(jù)進(jìn)行多次SMOTE后,其普遍水平同樣出現(xiàn)浮動(dòng),但浮動(dòng)幅度到了非常小的范圍,進(jìn)行5 000次SMOTE后的標(biāo)準(zhǔn)差普遍水平有圖3(b) 直方圖,再取均值即表示此組原始數(shù)據(jù)標(biāo)準(zhǔn)差的水平。
圖3 新合成樣本標(biāo)準(zhǔn)差統(tǒng)計(jì)特性
經(jīng)典灰色方法對(duì)原始數(shù)據(jù)不做處理,直接進(jìn)行累加生成,因此對(duì)樣本容量提出了要求,即對(duì)于小樣本及以上樣本容量的數(shù)據(jù),所包含的信息量較多,經(jīng)典灰色方法都可以處理,但卻不適用于極小樣本數(shù)據(jù)。
通過改進(jìn),在經(jīng)典的灰色方法中加入了SMOTE-SVR模型,首先對(duì)原始數(shù)據(jù)進(jìn)行處理,通過學(xué)習(xí)數(shù)據(jù)規(guī)律,將極小樣本擴(kuò)充到小樣本,再進(jìn)行累加生成?;疑椒ǜ倪M(jìn)前后的區(qū)別如圖4。
圖4 改進(jìn)前后對(duì)比
為驗(yàn)證上文提出方法的可行性,本節(jié)使用計(jì)算機(jī)對(duì)多種分布進(jìn)行抽樣,模擬測量數(shù)據(jù),不確定度評(píng)定過程中,使用較多的數(shù)據(jù)分布類型有正態(tài)分布、均勻分布、三角分布等,則本章對(duì)此3種分布類型的模擬數(shù)據(jù)進(jìn)行驗(yàn)證。生成9組極小樣本數(shù)據(jù)如表1,其中每組數(shù)據(jù)的樣本容量為5,各組獨(dú)立不相關(guān)。
表1 模擬生成的9組極小樣本量數(shù)據(jù)
貝塞爾公式和極差法在不確定度評(píng)定領(lǐng)域具有普遍的可接受性[15],為了直觀地表示改進(jìn)的灰色方法相較于經(jīng)典灰色方法的改善能力,以極差法的計(jì)算結(jié)果作為參考值,定義改善率η如式(8)。
(8)
式中:σimp_g表示改進(jìn)灰色方法得出的標(biāo)準(zhǔn)差;σg表示經(jīng)典灰色方法得出的標(biāo)準(zhǔn)差;σr表示極差法得出的標(biāo)準(zhǔn)差。η為正則表示具有積極的改善作用。
分別運(yùn)用貝塞爾公式法、極差法、經(jīng)典灰色方法和改進(jìn)的灰色方法計(jì)算標(biāo)準(zhǔn)差,計(jì)算結(jié)果如表2。
表2 不同方法計(jì)算模擬數(shù)據(jù)標(biāo)準(zhǔn)差
表2數(shù)據(jù)表明,所提出的改進(jìn)灰色方法的計(jì)算結(jié)果具有較高的可靠程度:相比于經(jīng)典灰色方法,改進(jìn)后的灰色方法在結(jié)果上有不同程度的正向改善,改善率分布在8.33%~41.18%;表格中數(shù)據(jù)也表明改進(jìn)的灰色方法具有較好的泛化能力:對(duì)多種分布的極小樣本數(shù)據(jù)都表現(xiàn)出適用性。改進(jìn)的灰色方法更適用于極小樣本數(shù)據(jù)的不確定度評(píng)定。
經(jīng)上述分析,改進(jìn)的灰色方法在模擬數(shù)據(jù)上具有可靠性,以某航空發(fā)動(dòng)機(jī)高空模擬試驗(yàn)的空氣流量測量中的總溫?cái)?shù)據(jù)為例,運(yùn)用極差法、經(jīng)典的灰色方法、改進(jìn)的灰色方法分別進(jìn)行不確定度A類評(píng)定,通過比較驗(yàn)證改進(jìn)的灰色方法在極小樣本量數(shù)據(jù)的不確定度評(píng)定中的優(yōu)勢。
圖5為搭建的航空發(fā)動(dòng)機(jī)性能測試系統(tǒng)示意圖,總溫指流量管主流區(qū)中的氣流以絕熱過程完全靜止時(shí),動(dòng)能全部轉(zhuǎn)化為內(nèi)能時(shí)反映出來的溫度[16]。實(shí)際測量中,在空氣流量測量截面上,沿周向均勻布置6支測量耙,每支測量耙上有3個(gè)總溫探針??倻靥结樀奈恢貌贾梅狭髁抗?等環(huán)面要求,并且每個(gè)探針處于所在等環(huán)面的面積中心線上??倻販y量的測量耙與總溫針的布局如圖6所示。
圖5 航空發(fā)動(dòng)機(jī)性能測試系統(tǒng)示意圖
圖6 總溫測靶布局
對(duì)每個(gè)測靶的3個(gè)總溫測點(diǎn)進(jìn)行5次重復(fù)性測量,測量結(jié)果見表3。分別運(yùn)用極差法、經(jīng)典灰色方法、改進(jìn)的灰色方法計(jì)算重復(fù)性,結(jié)果見表4。分析表4數(shù)據(jù)可知,改進(jìn)的灰色方法能夠應(yīng)對(duì)航空發(fā)動(dòng)機(jī)高空模擬實(shí)驗(yàn)空氣流量測量中的不同總溫?cái)?shù)據(jù)情況,具有較高的可靠性和泛化性。對(duì)于經(jīng)典灰色方法評(píng)定的重復(fù)性結(jié)果與參考值偏差較小的數(shù)據(jù)列,改進(jìn)的灰色方法評(píng)定的重復(fù)性結(jié)果與經(jīng)典灰色方法一致,對(duì)其中少部分?jǐn)?shù)據(jù)列有改善,最高改善了50.00%;對(duì)于經(jīng)典灰色方法評(píng)定的重復(fù)性結(jié)果與參考值偏差較大的數(shù)據(jù)列,改進(jìn)的灰色方法也有不同程度的改善,最高改善37.50%。
表3 總溫重復(fù)性測量數(shù)據(jù)
表4 總溫重復(fù)性計(jì)算結(jié)果
通過提出一種改進(jìn)的測量不確定度灰色評(píng)定模型,以期能夠解決經(jīng)典的測量不確定度灰色評(píng)定模型在極小樣本條件下局限性的問題。首先使用模擬的極小樣本數(shù)據(jù)驗(yàn)證了該模型的可靠性、泛化性,相較于經(jīng)典的灰色方法,改進(jìn)的灰色方法對(duì)不同分布的數(shù)據(jù)均有改善作用,最高改善41.18%。以某航空發(fā)動(dòng)機(jī)高空模擬試驗(yàn)的空氣流量測量中的總溫?cái)?shù)據(jù)為例,驗(yàn)證模型的性能,用包括改進(jìn)的灰色方法在內(nèi)的不同方法評(píng)定重復(fù)性,改善率最高達(dá)50.00%。改進(jìn)后的灰色方法能夠有效突破經(jīng)典測量不確定度灰色評(píng)定的局限性,可為極小樣本的不確定度評(píng)定研究提供參考。