王 軍
(安徽財貿(mào)職業(yè)學(xué)院,安徽 合肥 230601)
檢測物質(zhì)濃度的方法之一是把需要待測的物質(zhì)配置成溶液后滴在特定的白色試紙表面,待其充分反應(yīng)后,將有顏色試紙與一個標(biāo)準(zhǔn)比色卡進行對比,即可確定待測物質(zhì)的濃度檔位,簡稱為比色法.其方法操作方便,設(shè)備簡單,且對觀察顏色的靈敏度較高,不同物質(zhì)在不同的濃度下所對應(yīng)的顏色度數(shù)也不盡相同,同時每個人對顏色存在敏感度差異和觀測誤差,使其對物質(zhì)濃度的精準(zhǔn)度也造成一定的誤差,從而對相關(guān)實驗的進程和結(jié)果造成很大影響.本文主要依據(jù)2017年全國大學(xué)生數(shù)學(xué)建模競賽C題數(shù)據(jù),在回歸分析的基礎(chǔ)上,建立了以RGB(紅綠藍)、H(色調(diào))和S(飽和度)的讀數(shù)為自變量,物質(zhì)濃度為因變量的最小二乘法回歸模型,得到了物質(zhì)濃度與顏色讀數(shù)之間的相關(guān)關(guān)系,建立了F檢驗和灰色關(guān)聯(lián)分析法為準(zhǔn)則的評價數(shù)據(jù)優(yōu)劣的模型,并且對相關(guān)數(shù)據(jù)進行多重共線性診斷,得到了變量間存在顯著的復(fù)共線性,構(gòu)建主成分回歸分析模型,得到較于一般最小二乘法回歸方程更小誤差的主成分回歸方程,并給出了模型的誤差分析.
經(jīng)過對5組數(shù)據(jù)進行處理發(fā)現(xiàn),顏色讀數(shù)在不同的水溶液濃度下具有一定的相關(guān)關(guān)系.初步判斷組胺、溴酸鉀、工業(yè)堿、硫酸鋁鉀的溶液濃度都隨著顏色讀數(shù)變化而變化,而奶中尿素濃度隨顏色讀數(shù)的變化波動性比較大.從數(shù)據(jù)中可以得到顏色讀數(shù)在不同的水溶液濃度下具有一定的相關(guān)線性關(guān)系.在進行回歸分析時,我們將所有的顏色讀數(shù)作為自變量,物質(zhì)濃度作為因變量,再進行多元線性回歸分析,從而得到回歸系數(shù)從而反映對應(yīng)自變量的重要程度,所以我們將R,G,B,H,S作為函數(shù)的自變量X1,X2,X3,X4,X5,物質(zhì)濃度為因變量Y,假設(shè)五元回歸線性函數(shù)為:Y=β0+β1X1+β2X2+β3X3+β4X4+β5X5
根據(jù)數(shù)據(jù),得到組胺、溴酸鉀、工業(yè)堿、硫酸鋁鉀、奶中尿素的回歸方程的回歸系數(shù)和相關(guān)系數(shù):
組胺:Y=-212.765+2.855X1-4.487X2+2.321X3+4.593X4+1.142X5
溴酸鉀:Y=1449.592-12.588X1+4.867X2-1.277X3-7.094X4-6.347X5
工業(yè)堿:Y=261.65+0.164X1-1.398X2-0.313X3-0.131X4-0.880X5
硫酸鋁鉀:Y=17.537+0.053X1-0.018X2-0.102X3-0.134X4-0.020X5
奶中尿素:Y=12221.20+280.11X1+495.16X2-811.29X3-365.93X4+251.10X5
表1 不同物質(zhì)的相關(guān)系數(shù)
表1中組胺、溴酸鉀、奶中尿酸的相關(guān)系數(shù)都大于0.94,說明這三種物質(zhì)濃度和顏色讀數(shù)的關(guān)系呈高度相關(guān),工業(yè)堿、硫酸鋁鉀的相關(guān)系數(shù)介于0.5到0.8之間,呈顯著相關(guān)關(guān)系,所以通過數(shù)據(jù)分析可以確定顏色讀數(shù)和物質(zhì)濃度之間的關(guān)系.
在對5種物質(zhì)回歸分析的過程中,我們準(zhǔn)備用F檢驗和灰色關(guān)聯(lián)度分析來分析這5種物質(zhì)數(shù)據(jù)的優(yōu)劣程度.
準(zhǔn)則1(F檢驗):
利用SPSS軟件對數(shù)據(jù)進行回歸分析中得到5種物質(zhì)F檢驗資料見表2
表2 五種物質(zhì)的F檢驗資料
從而得到這5種數(shù)據(jù)的優(yōu)劣程度,順序如下:組胺>溴酸鉀>奶中尿素>硫酸鋁鉀>工業(yè)堿.
準(zhǔn)則2(灰色關(guān)聯(lián)度分析法):
為了更加精準(zhǔn)評價數(shù)據(jù)的優(yōu)劣,引入SPSS軟件處理所得的多個指標(biāo)采用灰色關(guān)聯(lián)來評價數(shù)據(jù)的優(yōu)劣.通過SPSS軟件對數(shù)據(jù)進行回歸分析中得到5種物質(zhì)統(tǒng)計資料見表3:
表3 5種物質(zhì)分析統(tǒng)計表
針對于多元回歸分析中得到的數(shù)據(jù),擬采用灰色關(guān)聯(lián)度分析法對各個指標(biāo)數(shù)值進行分析,具體步驟如下:把5種物質(zhì)作為評價對象,相關(guān)系數(shù)、擬合效果、決定系數(shù)、標(biāo)準(zhǔn)誤差、誤差平方和、均方差和F顯著性統(tǒng)計量為評價指標(biāo),計算灰色關(guān)聯(lián)系數(shù):
計算灰色加權(quán)關(guān)系度.灰色加權(quán)關(guān)系度的計算公式為
運用Matlab軟件處理,得到組胺、溴酸鉀、工業(yè)堿、硫酸鋁鉀、奶中尿素的灰色關(guān)聯(lián)度分別為0.6192、0.5222、0.5751、0.5346、0.5938,可以得到這5種數(shù)據(jù)的優(yōu)劣程度,順序如下組胺>奶中尿素>工業(yè)堿>硫酸鋁鉀>溴酸鉀.
以二氧化硫為例,對數(shù)據(jù)進行預(yù)處理,得到二氧化硫濃度隨顏色變化可能呈一定線性關(guān)系.
1.2.1 多重共線性的診斷
為了建立較為穩(wěn)定的線性回歸模型,對數(shù)據(jù)進行多重共線性的診斷,應(yīng)用SPSS 進行多重共線性診斷,得到回歸系數(shù)與共線性診斷如表4和表5:
表4 相關(guān)系數(shù)矩陣
表5 共線性診斷統(tǒng)計表
對數(shù)據(jù)進行復(fù)共線性判斷:
(1)特征分析法
原自變量的相關(guān)系數(shù),相關(guān)陣R的特征值為λ1=0.191,λ2=0,λ3=0.00003302,λ4=0.00001284,λ5=0.00000606,λ2,λ3,λ4,λ5均<0.01,可認為變量間存在嚴(yán)重復(fù)共線性.
(2)條件數(shù)法
表6中條件數(shù)介于400~1000之間,顯然變量間存在顯著的復(fù)共線性.
1.2.2 模型的建立與求解
設(shè)二氧化硫的顏色指標(biāo)B、G、R、H、S分別為X1,X2,X3,X4,X5,濃度為Y. 首先將因變量Y的標(biāo)準(zhǔn)化為和5個標(biāo)化自變量,分別為:
然后計算相關(guān)系數(shù)陣的5個特征值和各個自變量的累積貢獻率,通過分析可以看出,前三個變量的累積貢獻率達到0.99495,于是略去后兩個變量.最后用matlab軟件作主成分回歸分析,得到回歸方程
化成標(biāo)準(zhǔn)化的回歸方程
恢復(fù)到原始的自變量,得到主成分回歸方程
剩余標(biāo)準(zhǔn)差為S=22.8457,可見主成分回歸方程較于一般的最小二乘法的回歸方程具有更小的誤差.
1.2.3 誤差分析
針對顏色讀數(shù)與物質(zhì)濃度的關(guān)系問題,本文通過對數(shù)據(jù)的回歸分析和處理,建立了主成分回歸模型,但變量間的多重共線性增加了解決問題的難度,因此本文通過降維的方法,降低了問題的復(fù)雜性.在模型的改進中我們可以考慮主成分選取貢獻率一定要高,其次選取的主成分一定要能夠反映問題的實際信息,主成分的個數(shù)一定要小于原始個數(shù),這些情況都會影響模型的準(zhǔn)確性,這也是研究改進方向.