基于多元傳感參數(shù)的性能指標(biāo)預(yù)測方法研究?

2019-02-21 09:26:06仇利克胡乃軍郭忠文仇志金劉石勇

中國海洋大學(xué)學(xué)報(自然科學(xué)版) 2019年4期

仇利克，胡乃軍，郭忠文??，仇志金，劉石勇，劉競

(1.中國海洋大學(xué)信息科學(xué)與工程學(xué)院，山東青島 266100； 2.青島市工商行政管理局信息中心，山東青島 266071)

產(chǎn)品數(shù)據(jù)建模是制造信息化的核心技術(shù)，也是工業(yè)大數(shù)據(jù)應(yīng)用的核心，而產(chǎn)品性能指標(biāo)預(yù)測作為產(chǎn)品數(shù)據(jù)建模的一部分，在產(chǎn)品的生產(chǎn)加工過程中發(fā)揮越來越大的作用。產(chǎn)品性能指標(biāo)檢測普遍存在能耗過高的問題，這主要是由于，產(chǎn)品性能指標(biāo)檢測需要在一定的工況下進(jìn)行，工況穩(wěn)定后才能開始檢測，檢測過程中要始終維持同一工況條件，這致使很多產(chǎn)品的檢測周期過長，能耗過高。

表1顯示了不同產(chǎn)品一個測試周期的能量消耗情況。能耗的計算條件是：假設(shè)一個企業(yè)有40個實驗室，每年測試300 d，每個實驗室每天僅進(jìn)行一項測試，為維持實驗工況條件需要耗費的電量按照8 kW·h來估算。由表1可以看出，產(chǎn)品性能測試的能量消耗主要集中在維持工況上，一種產(chǎn)品一次測試的能量消耗可能比較少，但是產(chǎn)品生產(chǎn)企業(yè)每天會有大量的實驗室同時不間斷的進(jìn)行若干項測試，這種累積的能量消耗是巨大的。以表1中耗能最少的冰箱制冷能力測試為例，僅這一項測試一年就可以消耗約2 386.9 MW·h，這個能量消耗是非常巨大的。因此，若能縮短產(chǎn)品的測試周期，在較短的時間內(nèi)實現(xiàn)對產(chǎn)品性能指標(biāo)的預(yù)測是非常有實用價值的，不僅可以降低能耗，同時又可以減少產(chǎn)品測試環(huán)節(jié)的設(shè)備、廠房和人工投入。但目前尚沒有很好的辦法來實現(xiàn)既快速又準(zhǔn)確的產(chǎn)品性能預(yù)測。

表1 不同產(chǎn)品性能測試能量消耗Table 1 Energy consumption for products performance testing

注：*冰箱制冷能力測試使用的產(chǎn)品型號是BCD-316WDCN，冰箱耗電量測試使用的產(chǎn)品型號是BCD-579WE，空調(diào)制冷能力測試使用的產(chǎn)品是3 000 W空調(diào)。系統(tǒng)工況穩(wěn)定需要時間取3 h，為了維持實驗的工況條件需要開啟的制冷和制熱空調(diào)分別按照10 P(冰箱)和20 P(空調(diào))計算。

Note：The refrigerator model used for refrigerating capacity test is BCD-316WDCN, the refrigerator model used for energy consumption test is BCD-579WE, the air conditioning power used for refrigerating capacity test is 3 000 W. Suppose it takes 3 hours to reach stable working conditions, the power of the air conditioning used to maintain working conditions are 10 P for refrigerator tests and 20 P for air conditioning tests.

①Performance test type；②Test cycle；③The energy consumption for maintaining working condition；④The energy consumption of performance test；⑤Refrigerating capacity test of the refrigerator；⑥Energy consumption test of the refrigerator；⑦Air conditioning refrigerating capacity test.

隨著德國“工業(yè)4.0”和“中國制造2025”發(fā)展戰(zhàn)略的提出，工業(yè)企業(yè)進(jìn)入了工業(yè)4.0的新的發(fā)展階段，工業(yè)測試環(huán)節(jié)各種各樣傳感器的使用，使工業(yè)企業(yè)所擁有的產(chǎn)品測試數(shù)據(jù)日益豐富，這些數(shù)據(jù)成為實現(xiàn)產(chǎn)品性能指標(biāo)預(yù)測的新能源，在保證預(yù)測準(zhǔn)確率的同時，如何有效利用這些數(shù)據(jù)降低測試能耗成為目前亟需解決的問題。

針對以上問題，本文提出了一種基于多元傳感參數(shù)的性能指標(biāo)預(yù)測方法(Performance Index Prediction based on Multiple Sensor Parameters, PIP-MSP)。該方法(1)使用特征選擇算法選擇區(qū)分能力強(qiáng)的特征組成特征子集，保證了較高的預(yù)測準(zhǔn)確率；(2)使用開始較短時間內(nèi)的傳感數(shù)據(jù)進(jìn)行預(yù)測，縮短了產(chǎn)品的預(yù)測周期，從而達(dá)到降低能耗的目的；(3)使用多種學(xué)習(xí)算法建模，選擇效果最佳的一種建模算法。

1 性能指標(biāo)預(yù)測模型

傳感數(shù)據(jù)(如溫度、濕度、壓力等)是多維時間序列數(shù)據(jù)，使用已知的歷史數(shù)據(jù)可以預(yù)測將來的趨勢。隨著傳感器的廣泛應(yīng)用，傳感數(shù)據(jù)量越來越大，維數(shù)也越來越高，數(shù)據(jù)中夾雜的噪音和冗余也越來越多。而特征選擇能有效去除原始特征集中的噪音，降低特征維數(shù)，提高預(yù)測性能。

特征選擇，即從原始特征空間中選擇區(qū)分能力強(qiáng)的特征構(gòu)成特征子集，這個特征子集能完全或近似代替原始特征集。特征選擇對快速有效的預(yù)測至關(guān)重要[1-3]，目前已有很多研究成果[4-7]都取得了很好的效果。

故本文的PIP-MSP模型首先使用特征選擇算法去除傳感數(shù)據(jù)的噪音和冗余，降低維度，為后期的數(shù)據(jù)處理做準(zhǔn)備。PIP-MSP模型如圖1所示。模型以虛線為界分成兩部分：上半部分是線下模型，下半部分是線上模型。線下模型的主要功能是模型訓(xùn)練，以得到最優(yōu)模型參數(shù)。線下模型由兩部分組成：特征選擇和模型訓(xùn)練。每部分的功能描述如下：

圖1 PIP-MSP模型Fig.1 PIP-MSP model

(1)特征選擇：提取多元傳感序列開始較短時間內(nèi)的特征向量，使用特征選擇算法對原始特征向量進(jìn)行特征選擇，去除無關(guān)特征和冗余特征，生成特征子向量。

(2)模型訓(xùn)練：輸入特征子向量，使用學(xué)習(xí)算法訓(xùn)練模型，學(xué)習(xí)得到最優(yōu)模型參數(shù)。

線上模型主要用于在線預(yù)測，對新生成的多元傳感序列，首先進(jìn)行特征提取，生成特征向量，然后對提取的特征進(jìn)行特征選擇，生成特征子向量，用線下部分訓(xùn)練好的模型和參數(shù)完成預(yù)測，輸出預(yù)測值。

2 性能指標(biāo)預(yù)測方法

PIP-MSP模型中包括兩類算法：特征選擇算法和模型訓(xùn)練、預(yù)測算法。雖然已存在若干特征選擇算法，但這些算法并不能直接應(yīng)用于多元傳感數(shù)據(jù)的預(yù)測，故本文提出了一種新的特征選擇方法，詳見2.1小節(jié)。2.2小節(jié)介紹了性能指標(biāo)預(yù)測使用的學(xué)習(xí)算法。

2.1 特征選擇算法

相關(guān)特征的判定是特征選擇算法的重要組成部分。而目前存在若干判定相關(guān)特征的標(biāo)準(zhǔn)，如相關(guān)系數(shù)[8]、對稱不確定性[9]和互信息[10]等。傳感數(shù)據(jù)多是連續(xù)的數(shù)值數(shù)據(jù)，若使用對稱不確定性和互信息等應(yīng)用于離散數(shù)據(jù)的判定標(biāo)準(zhǔn)，需要對特征進(jìn)行離散化處理[11]。特征離散化后會產(chǎn)生誤差，影響預(yù)測準(zhǔn)確率[12-13]。為了保證預(yù)測準(zhǔn)確率，本文選擇Pearson相關(guān)系數(shù)作為相關(guān)特征的評價標(biāo)準(zhǔn)。

使用Pearson相關(guān)系數(shù)判定特征相關(guān)，首先定義兩種相關(guān)性：Y-相關(guān)和F-相關(guān)。Y-相關(guān)是指任意一個特征Fi與預(yù)測值y之間的相關(guān)性，記作ρi,y。F-相關(guān)是指任意兩個特征Fi和Fj(i≠j)之間的相關(guān)性，記作ρi,j。

本文首先使用相關(guān)系數(shù)區(qū)分相關(guān)特征和無關(guān)特征，然后從相關(guān)特征中區(qū)分冗余特征。為去除無關(guān)特征，本文設(shè)置γ為Y-相關(guān)的門限值，并假設(shè)一個特征的Y-相關(guān)值越大，這個特征所包含的關(guān)于y的信息量就越大。我們首先計算每個特征的Y-相關(guān)值，如果一個特征Fi和預(yù)測值y之間的相關(guān)系數(shù)ρi,y>γ，則說明特征Fi對最終的預(yù)測值y是有貢獻(xiàn)的，否則，F(xiàn)i即為無關(guān)特征。冗余特征的確定主要基于F-相關(guān)值ρi,j。為確定一對相關(guān)特征Fi和Fj(i≠j)中的冗余特征，我們設(shè)置了一個啟發(fā)式的門限值σ，由它來決定F-相關(guān)值ρi,j是否足夠大。冗余特征的定義如下。

從相關(guān)特征中不斷去除無關(guān)特征和冗余特征，此過程可用下面的算法FSPCC(Feature Selection based on Pearson Correlation Coefficient)描述。算法分兩步實現(xiàn)：(1)去除無關(guān)特征(行2～9)。首先計算每個特征Fi和y之間的相關(guān)系數(shù)ρi,y，以γ為Y-相關(guān)的門限值，把符合條件的相關(guān)特征放入集合Slist。同時對所有ρi,y求和，賦給σ。接著對σ求平均(行8)。集合Slist中的元素按ρi,y降序排列(行9)。(2)去除冗余特征(行10～22)。首先獲取Slist中最左端的第一個特征Fj(行10)，此特征的ρj,y是所有特征中最大的。然后獲取Slist中Fj右側(cè)的第一個特征Fi(行12)，判斷ρi,j是否大于等于σ，若大于，則認(rèn)為特征Fi是冗余的，從Slist中移除，直到Slist中最后一個Fi比較完畢為止。第一輪基于Fj的特征過濾結(jié)束后，算法FSPCC將選擇新的Fj(當(dāng)前Fj右側(cè)的第一個特征)(行20)作為新的參考進(jìn)行下一輪特征過濾，直到?jīng)]有新的Fj可以選擇為止。

此算法的計算量主要集中在ρi,y和ρi,j的計算上，假設(shè)數(shù)據(jù)集的特征維數(shù)為n，計算ρi,y的時間復(fù)雜度為O(n)。算法最好的情況(只有一個特征保留，余下特征都被移除)的時間復(fù)雜度是O(n)，最壞情況(所有特征都保留)的時間復(fù)雜度是O(n2)。

算法1 FSPCC

輸入：S(F1,F2,…,Fn,y)

γ,σ%用戶預(yù)先設(shè)定的參數(shù)

輸出：Sbest

1.begin

2.for i = 1to n do begin

3.為每個Fi計算ρi,y;

4.if(ρi,y>γ)

5.填加Fi到Slist；

6.σ=σ+ρi,y；

7.end

8.σ=σ/n;

9.以ρi,y值降序排列Slist中的特征；

10.Fj=getFirstElement(Slist);

11.do begin

12.Fi=getNextElement(Slist,Fj);

13.if(Fi<>NULL)

14.do begin

15.σ=mean(σ+ρi,y);

16.if(ρi,j≥σ)

17.把Fi從Slist中移除；

18.Fi=getNextElement(Slist,Fi);

19.end until(Fi==NULL)

20.Fj=getNextElement(Slist,Fj);

21.end until(Fj==NULL)

22.Sbest=Slist;

23.end

2.2 性能指標(biāo)預(yù)測方法

雖然本文提出的特征選擇算法FSPCC和學(xué)習(xí)算法無關(guān)，但不同的學(xué)習(xí)算法對最終的結(jié)果也會產(chǎn)生一定的影響。故本文選擇了兩種經(jīng)典的算法，LWLR和多項式算法，來完成性能指標(biāo)預(yù)測，選擇效果最好的一組算法作為FSPCC的內(nèi)嵌算法。

2.2.1 LWLR算法與普通線性回歸算法不同，LWLR算法使用“核”來對附近的點賦予更高的權(quán)重，優(yōu)先考慮待預(yù)測值x附近樣本點的特征，并給予較高的權(quán)重w，而距離待預(yù)測值x較遠(yuǎn)的樣本點，其影響系數(shù)要小一些。本文使用的核為高斯核，高斯核對應(yīng)的權(quán)重如下：

其中，x(i)指第i個樣本點的值；x指待預(yù)測的樣本點的值。從上式可知，如果|x(i)-x|很小，w(i)接近于1；如果|x(i)-x|很大，w(i)就會很小。因此，訓(xùn)練時，離待預(yù)測值x近的樣本點的權(quán)重比較大，而離待預(yù)測值x遠(yuǎn)的樣本點的權(quán)重比較小。帶寬參數(shù)τ值用于控制訓(xùn)練樣本權(quán)重w下降的速度。LWLR算法可根據(jù)τ值的變化擬合出最適合的曲線。

2.2.2 多項式算法采用多項式做最小二乘擬合也是常用的一種方法，隨著基函數(shù)和多項式冪次的變化，可以擬合出多種曲線，且此算法以簡單易實現(xiàn)而受到大家的青睞。我們實驗了多種擬合曲線，最終選擇了預(yù)測效果最好的一種，其對應(yīng)的基函數(shù)為

突發(fā)關(guān)鍵詞和高頻關(guān)鍵詞中的“社會化閱讀”“閱讀推廣”分布在Cluster 2中，同時結(jié)合表4中具有代表性的“閱讀體驗”“全民閱讀”等關(guān)鍵詞，綜合可確定Cluster 2的研究熱點為“移動閱讀推廣”。

φ0(x)=1,φ1(x)=x1,φ2(x)=x2,…,

φn(x)=xn,φn+1(x)=x12,…,φ2n(x)=xn2，

它們的線性組合為

P(x)=θ0φ0(x)+θ1φ1(x)+…+θnφn(x)+θn+1φn+1(x)+…+θ2nφ2n(x) 。

以上公式是關(guān)于x的二次多項式，其中，n為原始數(shù)據(jù)特征維數(shù)。

3 實驗論證和分析

3.1 數(shù)據(jù)集和評價標(biāo)準(zhǔn)

實驗使用3個真實世界的傳感數(shù)據(jù)集來顯示和說明PIP-MSP方法的優(yōu)點和不足。數(shù)據(jù)集來自某公司一年的制冷能力測試、負(fù)載溫度回升測試和耗電量測試數(shù)據(jù)。數(shù)據(jù)集的信息描述見表2。其中，制冷能力數(shù)據(jù)集(Freezing Capacity Data Set)簡寫為FCDS，負(fù)載溫度回升數(shù)據(jù)集(Temperature Rise of Load Time Respectively Data Set)簡寫為TRLTRDS，耗電量數(shù)據(jù)集(Energy Consumption Data Set)簡寫為ECDS。

表2 數(shù)據(jù)集信息描述Table 2 Dataset information description

評價PIP-MSP方法是否有效的標(biāo)準(zhǔn)如下：

(2)周期縮短百分比。本實驗使用開測后較短時間內(nèi)的數(shù)據(jù)來預(yù)測總周期(總耗時)，在保證預(yù)測準(zhǔn)確率的同時，選擇使用的時間段越短，周期縮短百分比越大。

(3)能耗節(jié)省情況。節(jié)省耗電量和周期縮短百分比成正比關(guān)系。在保證預(yù)測準(zhǔn)確率的同時，節(jié)省的能耗越多越好。

3.2 實驗論證和分析

由于樣本數(shù)較少，實驗中訓(xùn)練模型使用留一交叉驗證(Leave one out cross validation，LOOCV)確定最優(yōu)參數(shù)，最終的預(yù)測準(zhǔn)確率取LOOCV平均預(yù)測準(zhǔn)確率。LOOCV多用于樣本數(shù)較少的情況，它選取每一個樣本作為測試樣本，其余N-1個樣本作為訓(xùn)練樣本。(假設(shè)有N個樣本)，得到N個訓(xùn)練器，N個測試結(jié)果。用這N個結(jié)果的平均值來衡量模型的性能。FSPCC算法中的相關(guān)性門限值。

使用PIP-MSP方法后的維數(shù)和LOOCV平均預(yù)測準(zhǔn)確率如表3所示。由表3可以看出，F(xiàn)SPCC特征選擇算法能有效降低特征維數(shù)。和原始特征集的LOOCV預(yù)測準(zhǔn)確率相比，F(xiàn)SPCC選擇的特征子集的準(zhǔn)確率明顯高于原始特征集，最高相差12.78%(TRLTRDS使用多項式算法)，平均LOOCV預(yù)測準(zhǔn)確率高出原始特征集4.68%。以上結(jié)果說明：PIP-MSP方法能有效降低特征維數(shù)，提高預(yù)測準(zhǔn)確率。

表3 維數(shù)和LOOCV平均預(yù)測準(zhǔn)確率Table 3 Dimension and LOOCV average predictive accuracy

Note:①Data sets；②Learning algorithms；③Feature dimension；④Predictive accuracy；⑤Full sets predictive accuracy；⑥Polynomial algorithm

模型訓(xùn)練選擇的LWLR和多項式算法的預(yù)測性能有細(xì)微差別，對FCDS和ECDS，LWLR算法的預(yù)測結(jié)果更優(yōu)一些，而對TRLTRDS，多項式算法的預(yù)測結(jié)果更好一些。因此，PIP-MSP可以根據(jù)不同的測試項目選擇合適的內(nèi)嵌算法，以達(dá)到更好的效果。

使用本文提出的性能指標(biāo)預(yù)測方法后，3項測試的周期縮短百分比和能耗節(jié)省情況如表4所示。其中“能耗節(jié)省(MW·h/a)”計算的僅是維持工況的能耗，相對于工況能耗，測試本身的能耗是微不足道的，計算標(biāo)準(zhǔn)參考前言部分。根據(jù)標(biāo)準(zhǔn)GB/T 8059.2-1995，一次制冷能力測試的總耗時不能超過24 h，一次負(fù)載溫度回升測試的總耗時不能低于5 h，耗電量測試的總耗時在滿足GB/T 8059.2-1995要求的工況情況下至少需要24 h(實驗中涉及的計算按照最短時間24 h計算)。本文使用測試開始后2～4 h的測試數(shù)據(jù)預(yù)測本次測試的總耗時。周期縮短百分比的計算方法：在各個傳感數(shù)據(jù)集中分別取一組最長耗時(最大的預(yù)測值y)樣本和最短耗時樣本，分別求其周期縮短百分比，然后求兩組值的平均。周期縮短百分比的計算公式是：周期縮短百分比(%)=(本次測試節(jié)省的時間(min)/本次測試總耗時(min))×100%。

由表4可以看出，使用了本文提出的性能指標(biāo)預(yù)測方法后，3項測試的周期均得到了縮短，平均縮短了80.90%。由于產(chǎn)品的測試周期和耗電量成正比(負(fù)載溫度回升實驗是在斷電的情況下進(jìn)行的，僅維持工況需要能量消耗，故測試耗電量為0)，測試周期縮短了，必然導(dǎo)致測試所需耗電量的降低。3項測試的工況能耗可以節(jié)省約4 079.7 MW·h/a，這是非?？捎^的。

表4 周期縮短百分比和能耗節(jié)省情況Table 3 Cycle reduced percentage and energy saving

Note：①Data sets；②Test cycle；③Cycle shortening percentage；④Power saving；⑤Power saving percentage；⑥Energy saving

針對3個傳感數(shù)據(jù)集， LWLR和多項式算法采用10次10折交叉驗證計算的平均誤差作為最終誤差，誤差波動如圖2所示。誤差波動值的計算公式為：誤差波動值(%) = 最大誤差(%)-最小誤差(%)。可以看出：數(shù)據(jù)集中的樣本數(shù)越多，誤差波動越小。負(fù)載溫度回升數(shù)據(jù)集的誤差波動最大，耗電量數(shù)據(jù)集的誤差波動最小，不超過2%。以上結(jié)果驗證了PIP-MSP方法具有較好的穩(wěn)定性。

圖2 誤差波動Fig.2 Error fluctuation

4 結(jié)語

本文提出了一種針對多元傳感參數(shù)的性能指標(biāo)預(yù)測方法PIP-MSP，此方法使用FSPCC特征選擇算法移除冗余和噪音，選用LWLR和多項式算法訓(xùn)練模型。3個傳感數(shù)據(jù)集上的實驗結(jié)果驗證了PIP-MSP方法的有效性，此方法能降低傳感特征維數(shù)，提高預(yù)測準(zhǔn)確率，縮短產(chǎn)品性能的預(yù)測周期，降低測試能耗。PIP-MSP方法為在開測后短時間內(nèi)預(yù)測本次測試是否合格提供了依據(jù)，為實驗室的調(diào)度提供了參考，可有效提高實驗室的利用率，減少產(chǎn)品測試環(huán)節(jié)廠房和人工的投入。在PIP-MSP方法中嘗試使用多種特征選擇算法是我們下一步的研究方向。