仇利克, 胡乃軍, 郭忠文??, 仇志金 , 劉石勇, 劉 競
(1.中國海洋大學(xué)信息科學(xué)與工程學(xué)院,山東 青島 266100; 2.青島市工商行政管理局信息中心,山東 青島 266071)
產(chǎn)品數(shù)據(jù)建模是制造信息化的核心技術(shù),也是工業(yè)大數(shù)據(jù)應(yīng)用的核心,而產(chǎn)品性能指標(biāo)預(yù)測作為產(chǎn)品數(shù)據(jù)建模的一部分,在產(chǎn)品的生產(chǎn)加工過程中發(fā)揮越來越大的作用。產(chǎn)品性能指標(biāo)檢測普遍存在能耗過高的問題,這主要是由于,產(chǎn)品性能指標(biāo)檢測需要在一定的工況下進(jìn)行,工況穩(wěn)定后才能開始檢測,檢測過程中要始終維持同一工況條件,這致使很多產(chǎn)品的檢測周期過長,能耗過高。
表1顯示了不同產(chǎn)品一個測試周期的能量消耗情況。能耗的計算條件是:假設(shè)一個企業(yè)有40個實驗室,每年測試300 d,每個實驗室每天僅進(jìn)行一項測試,為維持實驗工況條件需要耗費的電量按照8 kW·h來估算。由表1可以看出,產(chǎn)品性能測試的能量消耗主要集中在維持工況上,一種產(chǎn)品一次測試的能量消耗可能比較少,但是產(chǎn)品生產(chǎn)企業(yè)每天會有大量的實驗室同時不間斷的進(jìn)行若干項測試,這種累積的能量消耗是巨大的。以表1中耗能最少的冰箱制冷能力測試為例,僅這一項測試一年就可以消耗約2 386.9 MW·h,這個能量消耗是非常巨大的。因此,若能縮短產(chǎn)品的測試周期,在較短的時間內(nèi)實現(xiàn)對產(chǎn)品性能指標(biāo)的預(yù)測是非常有實用價值的,不僅可以降低能耗,同時又可以減少產(chǎn)品測試環(huán)節(jié)的設(shè)備、廠房和人工投入。但目前尚沒有很好的辦法來實現(xiàn)既快速又準(zhǔn)確的產(chǎn)品性能預(yù)測。
表1 不同產(chǎn)品性能測試能量消耗Table 1 Energy consumption for products performance testing
注:*冰箱制冷能力測試使用的產(chǎn)品型號是BCD-316WDCN,冰箱耗電量測試使用的產(chǎn)品型號是BCD-579WE,空調(diào)制冷能力測試使用的產(chǎn)品是3 000 W空調(diào)。系統(tǒng)工況穩(wěn)定需要時間取3 h,為了維持實驗的工況條件需要開啟的制冷和制熱空調(diào)分別按照10 P(冰箱)和20 P(空調(diào))計算。
Note:The refrigerator model used for refrigerating capacity test is BCD-316WDCN, the refrigerator model used for energy consumption test is BCD-579WE, the air conditioning power used for refrigerating capacity test is 3 000 W. Suppose it takes 3 hours to reach stable working conditions, the power of the air conditioning used to maintain working conditions are 10 P for refrigerator tests and 20 P for air conditioning tests.
①Performance test type;②Test cycle;③The energy consumption for maintaining working condition;④The energy consumption of performance test;⑤Refrigerating capacity test of the refrigerator;⑥Energy consumption test of the refrigerator;⑦Air conditioning refrigerating capacity test.
隨著德國“工業(yè)4.0”和“中國制造2025”發(fā)展戰(zhàn)略的提出,工業(yè)企業(yè)進(jìn)入了工業(yè)4.0的新的發(fā)展階段,工業(yè)測試環(huán)節(jié)各種各樣傳感器的使用,使工業(yè)企業(yè)所擁有的產(chǎn)品測試數(shù)據(jù)日益豐富,這些數(shù)據(jù)成為實現(xiàn)產(chǎn)品性能指標(biāo)預(yù)測的新能源,在保證預(yù)測準(zhǔn)確率的同時,如何有效利用這些數(shù)據(jù)降低測試能耗成為目前亟需解決的問題。
針對以上問題,本文提出了一種基于多元傳感參數(shù)的性能指標(biāo)預(yù)測方法(Performance Index Prediction based on Multiple Sensor Parameters, PIP-MSP)。該方法(1)使用特征選擇算法選擇區(qū)分能力強(qiáng)的特征組成特征子集,保證了較高的預(yù)測準(zhǔn)確率;(2)使用開始較短時間內(nèi)的傳感數(shù)據(jù)進(jìn)行預(yù)測,縮短了產(chǎn)品的預(yù)測周期,從而達(dá)到降低能耗的目的;(3)使用多種學(xué)習(xí)算法建模,選擇效果最佳的一種建模算法。
傳感數(shù)據(jù)(如溫度、濕度、壓力等)是多維時間序列數(shù)據(jù),使用已知的歷史數(shù)據(jù)可以預(yù)測將來的趨勢。隨著傳感器的廣泛應(yīng)用,傳感數(shù)據(jù)量越來越大,維數(shù)也越來越高,數(shù)據(jù)中夾雜的噪音和冗余也越來越多。而特征選擇能有效去除原始特征集中的噪音,降低特征維數(shù),提高預(yù)測性能。
特征選擇,即從原始特征空間中選擇區(qū)分能力強(qiáng)的特征構(gòu)成特征子集,這個特征子集能完全或近似代替原始特征集。特征選擇對快速有效的預(yù)測至關(guān)重要[1-3],目前已有很多研究成果[4-7]都取得了很好的效果。
故本文的PIP-MSP模型首先使用特征選擇算法去除傳感數(shù)據(jù)的噪音和冗余,降低維度,為后期的數(shù)據(jù)處理做準(zhǔn)備。PIP-MSP模型如圖1所示。模型以虛線為界分成兩部分:上半部分是線下模型,下半部分是線上模型。線下模型的主要功能是模型訓(xùn)練,以得到最優(yōu)模型參數(shù)。線下模型由兩部分組成:特征選擇和模型訓(xùn)練。每部分的功能描述如下:
圖1 PIP-MSP模型Fig.1 PIP-MSP model
(1)特征選擇:提取多元傳感序列開始較短時間內(nèi)的特征向量,使用特征選擇算法對原始特征向量進(jìn)行特征選擇,去除無關(guān)特征和冗余特征,生成特征子向量。
(2)模型訓(xùn)練:輸入特征子向量,使用學(xué)習(xí)算法訓(xùn)練模型,學(xué)習(xí)得到最優(yōu)模型參數(shù)。
線上模型主要用于在線預(yù)測,對新生成的多元傳感序列,首先進(jìn)行特征提取,生成特征向量,然后對提取的特征進(jìn)行特征選擇,生成特征子向量,用線下部分訓(xùn)練好的模型和參數(shù)完成預(yù)測,輸出預(yù)測值。
PIP-MSP模型中包括兩類算法:特征選擇算法和模型訓(xùn)練、預(yù)測算法。雖然已存在若干特征選擇算法,但這些算法并不能直接應(yīng)用于多元傳感數(shù)據(jù)的預(yù)測,故本文提出了一種新的特征選擇方法,詳見2.1小節(jié)。2.2小節(jié)介紹了性能指標(biāo)預(yù)測使用的學(xué)習(xí)算法。
相關(guān)特征的判定是特征選擇算法的重要組成部分。而目前存在若干判定相關(guān)特征的標(biāo)準(zhǔn),如相關(guān)系數(shù)[8]、對稱不確定性[9]和互信息[10]等。傳感數(shù)據(jù)多是連續(xù)的數(shù)值數(shù)據(jù),若使用對稱不確定性和互信息等應(yīng)用于離散數(shù)據(jù)的判定標(biāo)準(zhǔn),需要對特征進(jìn)行離散化處理[11]。特征離散化后會產(chǎn)生誤差,影響預(yù)測準(zhǔn)確率[12-13]。為了保證預(yù)測準(zhǔn)確率,本文選擇Pearson相關(guān)系數(shù)作為相關(guān)特征的評價標(biāo)準(zhǔn)。
使用Pearson相關(guān)系數(shù)判定特征相關(guān),首先定義兩種相關(guān)性:Y-相關(guān)和F-相關(guān)。Y-相關(guān)是指任意一個特征Fi與預(yù)測值y之間的相關(guān)性,記作ρi,y。F-相關(guān)是指任意兩個特征Fi和Fj(i≠j)之間的相關(guān)性,記作ρi,j。
本文首先使用相關(guān)系數(shù)區(qū)分相關(guān)特征和無關(guān)特征,然后從相關(guān)特征中區(qū)分冗余特征。為去除無關(guān)特征,本文設(shè)置γ為Y-相關(guān)的門限值,并假設(shè)一個特征的Y-相關(guān)值越大,這個特征所包含的關(guān)于y的信息量就越大。我們首先計算每個特征的Y-相關(guān)值,如果一個特征Fi和預(yù)測值y之間的相關(guān)系數(shù)ρi,y>γ,則說明特征Fi對最終的預(yù)測值y是有貢獻(xiàn)的,否則,F(xiàn)i即為無關(guān)特征。冗余特征的確定主要基于F-相關(guān)值ρi,j。為確定一對相關(guān)特征Fi和Fj(i≠j)中的冗余特征,我們設(shè)置了一個啟發(fā)式的門限值σ,由它來決定F-相關(guān)值ρi,j是否足夠大。冗余特征的定義如下。
從相關(guān)特征中不斷去除無關(guān)特征和冗余特征,此過程可用下面的算法FSPCC(Feature Selection based on Pearson Correlation Coefficient)描述。算法分兩步實現(xiàn):(1)去除無關(guān)特征(行2~9)。首先計算每個特征Fi和y之間的相關(guān)系數(shù)ρi,y,以γ為Y-相關(guān)的門限值,把符合條件的相關(guān)特征放入集合Slist。同時對所有ρi,y求和,賦給σ。接著對σ求平均(行8)。集合Slist中的元素按ρi,y降序排列(行9)。(2)去除冗余特征(行10~22)。首先獲取Slist中最左端的第一個特征Fj(行10),此特征的ρj,y是所有特征中最大的。然后獲取Slist中Fj右側(cè)的第一個特征Fi(行12),判斷ρi,j是否大于等于σ,若大于,則認(rèn)為特征Fi是冗余的,從Slist中移除,直到Slist中最后一個Fi比較完畢為止。第一輪基于Fj的特征過濾結(jié)束后,算法FSPCC將選擇新的Fj(當(dāng)前Fj右側(cè)的第一個特征)(行20)作為新的參考進(jìn)行下一輪特征過濾,直到?jīng)]有新的Fj可以選擇為止。
此算法的計算量主要集中在ρi,y和ρi,j的計算上,假設(shè)數(shù)據(jù)集的特征維數(shù)為n,計算ρi,y的時間復(fù)雜度為O(n)。算法最好的情況(只有一個特征保留,余下特征都被移除)的時間復(fù)雜度是O(n),最壞情況(所有特征都保留)的時間復(fù)雜度是O(n2)。
算法1 FSPCC
輸入:S(F1,F2,…,Fn,y)
γ,σ%用戶預(yù)先設(shè)定的參數(shù)
輸出:Sbest
1.begin
2.for i = 1to n do begin
3.為每個Fi計算ρi,y;
4.if(ρi,y>γ)
5.填加Fi到Slist;
6.σ=σ+ρi,y;
7.end
8.σ=σ/n;
9.以ρi,y值降序排列Slist中的特征;
10.Fj=getFirstElement(Slist);
11.do begin
12.Fi=getNextElement(Slist,Fj);
13.if(Fi<>NULL)
14.do begin
15.σ=mean(σ+ρi,y);
16.if(ρi,j≥σ)
17.把Fi從Slist中移除;
18.Fi=getNextElement(Slist,Fi);
19.end until(Fi==NULL)
20.Fj=getNextElement(Slist,Fj);
21.end until(Fj==NULL)
22.Sbest=Slist;
23.end
雖然本文提出的特征選擇算法FSPCC和學(xué)習(xí)算法無關(guān),但不同的學(xué)習(xí)算法對最終的結(jié)果也會產(chǎn)生一定的影響。故本文選擇了兩種經(jīng)典的算法,LWLR和多項式算法,來完成性能指標(biāo)預(yù)測,選擇效果最好的一組算法作為FSPCC的內(nèi)嵌算法。
2.2.1 LWLR算法 與普通線性回歸算法不同,LWLR算法使用“核”來對附近的點賦予更高的權(quán)重,優(yōu)先考慮待預(yù)測值x附近樣本點的特征,并給予較高的權(quán)重w,而距離待預(yù)測值x較遠(yuǎn)的樣本點,其影響系數(shù)要小一些。本文使用的核為高斯核,高斯核對應(yīng)的權(quán)重如下:
其中,x(i)指第i個樣本點的值;x指待預(yù)測的樣本點的值。從上式可知,如果|x(i)-x|很小,w(i)接近于1;如果|x(i)-x|很大,w(i)就會很小。因此,訓(xùn)練時,離待預(yù)測值x近的樣本點的權(quán)重比較大,而離待預(yù)測值x遠(yuǎn)的樣本點的權(quán)重比較小。帶寬參數(shù)τ值用于控制訓(xùn)練樣本權(quán)重w下降的速度。LWLR算法可根據(jù)τ值的變化擬合出最適合的曲線。
2.2.2 多項式算法 采用多項式做最小二乘擬合也是常用的一種方法,隨著基函數(shù)和多項式冪次的變化,可以擬合出多種曲線,且此算法以簡單易實現(xiàn)而受到大家的青睞。我們實驗了多種擬合曲線,最終選擇了預(yù)測效果最好的一種,其對應(yīng)的基函數(shù)為
突發(fā)關(guān)鍵詞和高頻關(guān)鍵詞中的“社會化閱讀”“閱讀推廣”分布在Cluster 2中,同時結(jié)合表4中具有代表性的“閱讀體驗”“全民閱讀”等關(guān)鍵詞,綜合可確定Cluster 2的研究熱點為“移動閱讀推廣”。
φ0(x)=1,φ1(x)=x1,φ2(x)=x2,…,
φn(x)=xn,φn+1(x)=x12,…,φ2n(x)=xn2,
它們的線性組合為
P(x)=θ0φ0(x)+θ1φ1(x)+…+θnφn(x)+θn+1φn+1(x)+…+θ2nφ2n(x) 。
以上公式是關(guān)于x的二次多項式,其中,n為原始數(shù)據(jù)特征維數(shù)。
X=
實驗使用3個真實世界的傳感數(shù)據(jù)集來顯示和說明PIP-MSP方法的優(yōu)點和不足。數(shù)據(jù)集來自某公司一年的制冷能力測試、負(fù)載溫度回升測試和耗電量測試數(shù)據(jù)。數(shù)據(jù)集的信息描述見表2。其中,制冷能力數(shù)據(jù)集(Freezing Capacity Data Set)簡寫為FCDS,負(fù)載溫度回升數(shù)據(jù)集(Temperature Rise of Load Time Respectively Data Set)簡寫為TRLTRDS,耗電量數(shù)據(jù)集(Energy Consumption Data Set)簡寫為ECDS。
表2 數(shù)據(jù)集信息描述Table 2 Dataset information description
評價PIP-MSP方法是否有效的標(biāo)準(zhǔn)如下:
(2)周期縮短百分比。本實驗使用開測后較短時間內(nèi)的數(shù)據(jù)來預(yù)測總周期(總耗時),在保證預(yù)測準(zhǔn)確率的同時,選擇使用的時間段越短,周期縮短百分比越大。
(3)能耗節(jié)省情況。節(jié)省耗電量和周期縮短百分比成正比關(guān)系。在保證預(yù)測準(zhǔn)確率的同時,節(jié)省的能耗越多越好。
由于樣本數(shù)較少,實驗中訓(xùn)練模型使用留一交叉驗證(Leave one out cross validation,LOOCV)確定最優(yōu)參數(shù),最終的預(yù)測準(zhǔn)確率取LOOCV平均預(yù)測準(zhǔn)確率。LOOCV多用于樣本數(shù)較少的情況,它選取每一個樣本作為測試樣本,其余N-1個樣本作為訓(xùn)練樣本。(假設(shè)有N個樣本),得到N個訓(xùn)練器,N個測試結(jié)果。用這N個結(jié)果的平均值來衡量模型的性能。FSPCC算法中的相關(guān)性門限值。
使用PIP-MSP方法后的維數(shù)和LOOCV平均預(yù)測準(zhǔn)確率如表3所示。由表3可以看出,F(xiàn)SPCC特征選擇算法能有效降低特征維數(shù)。和原始特征集的LOOCV預(yù)測準(zhǔn)確率相比,F(xiàn)SPCC選擇的特征子集的準(zhǔn)確率明顯高于原始特征集,最高相差12.78%(TRLTRDS使用多項式算法),平均LOOCV預(yù)測準(zhǔn)確率高出原始特征集4.68%。以上結(jié)果說明:PIP-MSP方法能有效降低特征維數(shù),提高預(yù)測準(zhǔn)確率。
表3 維數(shù)和LOOCV平均預(yù)測準(zhǔn)確率Table 3 Dimension and LOOCV average predictive accuracy
Note:①Data sets;②Learning algorithms;③Feature dimension;④Predictive accuracy;⑤Full sets predictive accuracy;⑥Polynomial algorithm
模型訓(xùn)練選擇的LWLR和多項式算法的預(yù)測性能有細(xì)微差別,對FCDS和ECDS,LWLR算法的預(yù)測結(jié)果更優(yōu)一些,而對TRLTRDS,多項式算法的預(yù)測結(jié)果更好一些。因此,PIP-MSP可以根據(jù)不同的測試項目選擇合適的內(nèi)嵌算法,以達(dá)到更好的效果。
使用本文提出的性能指標(biāo)預(yù)測方法后,3項測試的周期縮短百分比和能耗節(jié)省情況如表4所示。其中“能耗節(jié)省(MW·h/a)”計算的僅是維持工況的能耗,相對于工況能耗,測試本身的能耗是微不足道的,計算標(biāo)準(zhǔn)參考前言部分。根據(jù)標(biāo)準(zhǔn)GB/T 8059.2-1995,一次制冷能力測試的總耗時不能超過24 h,一次負(fù)載溫度回升測試的總耗時不能低于5 h,耗電量測試的總耗時在滿足GB/T 8059.2-1995要求的工況情況下至少需要24 h(實驗中涉及的計算按照最短時間24 h計算)。本文使用測試開始后2~4 h的測試數(shù)據(jù)預(yù)測本次測試的總耗時。周期縮短百分比的計算方法:在各個傳感數(shù)據(jù)集中分別取一組最長耗時(最大的預(yù)測值y)樣本和最短耗時樣本,分別求其周期縮短百分比,然后求兩組值的平均。周期縮短百分比的計算公式是:周期縮短百分比(%)=(本次測試節(jié)省的時間(min)/本次測試總耗時(min))×100%。
由表4可以看出,使用了本文提出的性能指標(biāo)預(yù)測方法后,3項測試的周期均得到了縮短,平均縮短了80.90%。由于產(chǎn)品的測試周期和耗電量成正比(負(fù)載溫度回升實驗是在斷電的情況下進(jìn)行的,僅維持工況需要能量消耗,故測試耗電量為0),測試周期縮短了,必然導(dǎo)致測試所需耗電量的降低。3項測試的工況能耗可以節(jié)省約4 079.7 MW·h/a,這是非??捎^的。
表4 周期縮短百分比和能耗節(jié)省情況Table 3 Cycle reduced percentage and energy saving
Note:①Data sets;②Test cycle;③Cycle shortening percentage;④Power saving;⑤Power saving percentage;⑥Energy saving
針對3個傳感數(shù)據(jù)集, LWLR和多項式算法采用10次10折交叉驗證計算的平均誤差作為最終誤差,誤差波動如圖2所示。誤差波動值的計算公式為:誤差波動值(%) = 最大誤差(%)-最小誤差(%)。可以看出:數(shù)據(jù)集中的樣本數(shù)越多,誤差波動越小。負(fù)載溫度回升數(shù)據(jù)集的誤差波動最大,耗電量數(shù)據(jù)集的誤差波動最小,不超過2%。以上結(jié)果驗證了PIP-MSP方法具有較好的穩(wěn)定性。
圖2 誤差波動Fig.2 Error fluctuation
本文提出了一種針對多元傳感參數(shù)的性能指標(biāo)預(yù)測方法PIP-MSP,此方法使用FSPCC特征選擇算法移除冗余和噪音,選用LWLR和多項式算法訓(xùn)練模型。3個傳感數(shù)據(jù)集上的實驗結(jié)果驗證了PIP-MSP方法的有效性,此方法能降低傳感特征維數(shù),提高預(yù)測準(zhǔn)確率,縮短產(chǎn)品性能的預(yù)測周期,降低測試能耗。PIP-MSP方法為在開測后短時間內(nèi)預(yù)測本次測試是否合格提供了依據(jù),為實驗室的調(diào)度提供了參考,可有效提高實驗室的利用率,減少產(chǎn)品測試環(huán)節(jié)廠房和人工的投入。在PIP-MSP方法中嘗試使用多種特征選擇算法是我們下一步的研究方向。