李 萍
(蘭州石化職業(yè)技術(shù)學(xué)院,甘肅 蘭州 730060)
如何有效控制顏色指標(biāo)體系是一個(gè)非常重要的課題。本文研究的物質(zhì)濃度與顏色之間的關(guān)系可用多種方法來(lái)判定,如物質(zhì)的特殊顏色、特征反應(yīng)現(xiàn)象、特殊工業(yè)生產(chǎn)、特征數(shù)據(jù)等方法均可使用。通過(guò)對(duì)所提供的有關(guān)顏色讀數(shù)和物質(zhì)濃度數(shù)據(jù)進(jìn)行分析研究,用MATLAB多元線性回歸函數(shù),建立顏色讀數(shù)和物質(zhì)濃度之間的關(guān)系模型。并對(duì)已給出的數(shù)據(jù)進(jìn)行了判定,找出了影響判定的異常值,進(jìn)一步剔除異常數(shù)據(jù)后對(duì)誤差進(jìn)行分析,模型精度進(jìn)一步提高,方法具有實(shí)際推廣價(jià)值[1-4]。
假設(shè)隨機(jī)變量y與p個(gè)自變量x1,x2,x3,…xp之間存在著線性相關(guān)關(guān)系,實(shí)際樣本量為n,其第i次觀測(cè)值為
其n次觀測(cè)值可寫(xiě)為如下形式:
通過(guò)尋求β的估計(jì)值b,建立多元線性回歸方程模型:。
對(duì)二氧化硫物質(zhì)濃度數(shù)據(jù)進(jìn)行顏色差值計(jì)算,結(jié)果如表1所示。
表1 物質(zhì)濃度與顏色差值
△B:B列數(shù)據(jù)的顏色差異;△G:G列數(shù)據(jù)的顏色差異;△R:R列數(shù)據(jù)的顏色差異;
△H:H列數(shù)據(jù)的顏色差異;△S:S列數(shù)據(jù)的顏色差異。
運(yùn)用MATLAB工具箱,得到相關(guān)系數(shù)矩陣,線性相關(guān)檢驗(yàn)的值矩陣以及相關(guān)系數(shù)矩陣圖[5-8],如圖1所示。
圖1 相關(guān)系數(shù)矩陣圖
圖1用橢圓色塊直觀的表示變量間的線性相關(guān)程度的大小。橢圓趨于圓形時(shí),變量間相關(guān)系數(shù)的絕對(duì)值越接近0,反之越扁,變量間相關(guān)系數(shù)越接近于1。若橢圓長(zhǎng)軸方向是從左下到右上,變量間為正相關(guān),反之為負(fù)相關(guān)。若p值≤0.05,則認(rèn)為變量間的線性相關(guān)性是顯著地,反之則認(rèn)為不顯著。觀察圖1可知,濃度y值與相對(duì)應(yīng)的x2、x3、x4線性相關(guān)性是顯著的,x2與x3、x4線性相關(guān)性是顯著的。
針對(duì)以上數(shù)據(jù)分析,作5元線性回歸,建立y關(guān)于的回歸模型如下:
調(diào)用MATLAB工具箱里L(fēng)inearModel類的fit方法作多元線性回歸,返回參數(shù)估計(jì)結(jié)果和顯著性檢驗(yàn)結(jié)果。
用MATLAB編程,運(yùn)行程序得出經(jīng)驗(yàn)回歸方程如下:
判定系數(shù)R-squared為0.871,擬合程度較好。
對(duì)回歸方程進(jìn)行顯著性檢驗(yàn),原假設(shè)和備擇假設(shè)分別為:H0:b1=b2=…=b5=0,H1:bi不全為0,i=1,2,…,5
方程檢驗(yàn)的p值(p-value = 3.43e-06)小于0.05,可知在顯著性水平α=0.05下應(yīng)拒絕原假設(shè)H0,可認(rèn)為回歸方程是顯著的,但并不是方程中的任何一項(xiàng)都是顯著的。x4的p值為0.0532基本與0.05持平,常數(shù)項(xiàng)、x1、x3、x5所對(duì)應(yīng)的的p值分別為0.5803、0.2781、0.9465、0.74419,均大于0.05,說(shuō)明在顯著性水平0.05下,回歸方程的線性項(xiàng)x1、x3、x5均是不顯著的。其中x3最不顯著,其次是x5,再是常數(shù)項(xiàng),最后是x1。
判斷多重共線性方法有多種,本文選用基于方差膨脹因子的多重共線性方法[9-11]。模型為自變量xi關(guān)于其它自變量的多元線性回歸,計(jì)算模型的判定系數(shù),定義第i個(gè)自變量的方差膨脹因子:
當(dāng)自變量xi與其它自變量線性相關(guān)顯著,接近于1,VIFi接近于無(wú)窮大,反之,接近于0,VIFi接近于1。VIFi越大說(shuō)明線性相關(guān)越顯著,即存在共線性。VIF<5,為共線性較弱;5 ≤VIF≤10,為中等程度共線性;VIF>10,為共線性嚴(yán)重,必須設(shè)法消除共線性。常用的方法有:主成分回歸、變量變換、去除變量等方法[12,13]。
通過(guò)計(jì)算,VIF值分別為30.5032,542.5648,29.2250,731.0040,5.4828。由此可知,x5中等程度共線性,其他均共線性嚴(yán)重,尤其是x4和x2非常嚴(yán)重共線性。
通過(guò)MATLAB工具箱繪制殘差直方圖和正態(tài)分布概率圖,如圖2所示。
圖2 多元線性回歸殘差直方圖和殘差正態(tài)分布概率圖
圖3 去除異常值和不顯著項(xiàng)殘差直方圖和殘差正態(tài)分布概率圖
從程序運(yùn)行結(jié)果可知,殘差基本服從正態(tài)分布。
根據(jù)學(xué)生化殘差查找異常值,有3組數(shù)據(jù)出現(xiàn)異常,觀測(cè)序號(hào)分別為1,10和11。
判定系數(shù)R-squared為0.977,較改進(jìn)前擬合度有很大提高。
對(duì)回歸方程進(jìn)行顯著性檢驗(yàn)p值(p-value=5.88e-11)小于0.05,改進(jìn)后的方程是顯著的。
由圖3可知,殘差正態(tài)概率圖較改進(jìn)前更優(yōu)。
根據(jù)擬合的多元線性回歸方程,3元擬合和5元擬合的相對(duì)誤差,見(jiàn)表2所示。
表2 3元擬合和5元擬合的相對(duì)誤差
3元擬合和5元擬合的效果如圖4所示。
圖4 3元擬合和5元擬合
由圖4可知,3元多項(xiàng)式擬合方程的擬合效果優(yōu)于5元多項(xiàng)式擬合。擬合的相對(duì)誤差如圖5所示。
圖5 3元和5元擬合相對(duì)誤差圖
由圖5可知,3元擬合的觀測(cè)序號(hào)9,10,12,14,16五組數(shù)據(jù)相對(duì)誤差比5元擬合相對(duì)誤差大,其余16組數(shù)據(jù)均小于5元擬合的相對(duì)誤差。
在學(xué)生化殘差查找異常值時(shí),初步判定觀測(cè)序號(hào)第10,11為異常值,在3元擬合相對(duì)誤差判定中,第9為優(yōu)化模型的下一步需剔除的數(shù)據(jù)。當(dāng)二氧化硫物質(zhì)濃度為50時(shí),所測(cè)得的數(shù)據(jù)均顯示異常,懷疑在此種物質(zhì)濃度測(cè)量時(shí)數(shù)據(jù)測(cè)量出現(xiàn)較大偏差,需重新測(cè)量。當(dāng)物質(zhì)濃度大于50時(shí),3元擬合的相對(duì)誤差值較小,在這一物質(zhì)濃度范圍,擬合程度最優(yōu)[14]。
數(shù)據(jù)量越大,擬合的準(zhǔn)確度越好,若數(shù)據(jù)量很少,則回歸方程很難建立,且精度不高。而顏色維度與溶質(zhì)的偏色性有關(guān),所以不同的溶質(zhì)選擇的顏色維度不同,顏色維度并不是選的越多越好,故針對(duì)某一物質(zhì),應(yīng)選擇合適的顏色維度來(lái)進(jìn)行回歸擬合,再用回歸方程判定其物質(zhì)濃度。
本文建立了多元線性回歸分析模型,判定顏色讀數(shù)和物質(zhì)濃度之間的關(guān)系。模型經(jīng)去除變量和剔除異常數(shù)據(jù)提高了精度,但物質(zhì)濃度的顏色讀數(shù)所測(cè)量的5個(gè)顏色維度之間有較強(qiáng)的線性相關(guān)性,故所建立的回歸方程的如3元擬合的值為5.88e-11小于0.05,方程是顯著的,方程的常數(shù)項(xiàng)值為0.0028016小于0.05,但其他線性項(xiàng)值分別為0.12513,0.99429,0.38618所做的檢驗(yàn)的值大于0.05,其中最不顯著。在模型的進(jìn)一步優(yōu)化和改進(jìn)中,嘗試運(yùn)用去除變量,嶺回歸,主成分回歸等方法來(lái)消除多重共線性,在方程顯著的前提下,使方程的各線性項(xiàng)達(dá)到顯著[15,16]。