王誠 劉碩
(蘭州石化職業(yè)技術(shù)學(xué)院信息處理與控制工程學(xué)院,甘肅 蘭州730060)
比色法是目前常用的一種檢測物質(zhì)濃度的方法,即把待測物質(zhì)制備成溶液后滴在特定的白色試紙表面,等其充分反應(yīng)以后獲得一張有顏色的試紙,再把該顏色試紙與一個標(biāo)準(zhǔn)比色卡進(jìn)行對比,就可以確定待測物質(zhì)的濃度檔位了。由于每個人對顏色的敏感差異和觀測誤差,使得這一方法在精度上受到很大影響。隨著照相技術(shù)和顏色分辨率的提高,希望建立顏色讀數(shù)和物質(zhì)濃度的數(shù)學(xué)模型,即只要給模型輸入照片中的顏色讀數(shù)就能夠通過計算獲得待測物質(zhì)的濃度,而模型的精度直接關(guān)系著待測物質(zhì)濃度的準(zhǔn)確性,見于監(jiān)測數(shù)據(jù)呈現(xiàn)明顯的類狀或族狀,可以將物質(zhì)濃度判斷問題歸結(jié)為類別辨誤問題或模式識別問題。為此,本文在已知顏色讀數(shù)和相應(yīng)物質(zhì)濃度實(shí)驗(yàn)數(shù)據(jù)的基礎(chǔ)上建立了基于logistic回歸的物質(zhì)濃度識別模型,該模型是實(shí)質(zhì)上是一種多元非線性概率回歸分析模型,實(shí)例分析表明用該模型預(yù)測物質(zhì)濃度具有很高的精確度,好于支持向量機(jī)[1-2]、神經(jīng)網(wǎng)絡(luò)[3-4]等辨識模型,值得工程技術(shù)人員借鑒。
設(shè)表征物質(zhì)濃度的常用顏色有:藍(lán)色B、綠色G、紅色R、色調(diào)H、飽和度S,其讀數(shù)分別為x1、x2、x3和x4;對物質(zhì)濃度進(jìn)行類別劃分,類別值{1,2,…,J}(J為總類別數(shù));設(shè)研究對象(物體)記為X,其樣本集X={X1,X2,…,Xn}(Xi為樣本,i=1,2,…,n),且Xi=(xi1,xi2,xi3,xi4)。物質(zhì)濃度類別Y∈{1,2,…,J}與其特征值(顏色讀數(shù))之間存在非線性概率關(guān)系。設(shè)樣本Xi的濃度屬于第J類的概率為PJ,以Y=J作為參考類別,則對于Y=J(j=1,2,…,J-1),其logistic變換logit模型[5-6]為:
其中:Bj0,Bj1,…,Bj4為logistic回歸的偏回歸系數(shù),表示變量xi對Y的影響大小,B0j為常數(shù)項(xiàng);為樣本的第j個參數(shù)值;而對于參考類別, 其模型中的所有系數(shù)均為0,即GJ=0。由式(1)得:
式(1)中的模型系數(shù)Bj0,Bj1,…,Bj4,由建模樣本數(shù)據(jù)及統(tǒng)計軟件SPSS19[7-8]完成。
2017年全國大學(xué)生數(shù)學(xué)建模C題給出一組二氧化硫的濃度與其顏色的讀數(shù),見表1所示。
表1 二氧化硫的濃度與顏色讀數(shù)
首先按濃度大小分類,將濃度為0,20,30,50,80,100,150對應(yīng)的樣本分別看成一類,共7類,類別值分別為1,2,3,4,5,6,7。當(dāng)類別值為1時,則對應(yīng)的濃度為0;當(dāng)類別值為2時,則對應(yīng)的濃度為20;當(dāng)類別值3時,則對應(yīng)的濃度為30;當(dāng)類別值4時,則對應(yīng)的濃度為50;依次類推。
將表1中二氧化硫指標(biāo)數(shù)據(jù)及相應(yīng)類別值列導(dǎo)入SPSS19中,選擇“分析”|“回歸”|“多項(xiàng)logistic”命令,按提示對話框完成所有操作,求得到的模型系數(shù)及模型見下式(4)~(10):
由SPSS19得出模型擬合信息見表2,偽R方值見表3,擬合優(yōu)度見表4。
表2 模型擬合信息
表3 三個偽決定系數(shù)R方
表4 擬合優(yōu)度
從表2、表3及表4可知模型整體的顯著性非常高,因?yàn)閜值遠(yuǎn)小于0.05;從表3及表4可看出三個偽決定系數(shù)及擬合優(yōu)度都很高,說明模型擬合效果非常好。下面給出模型的反向檢驗(yàn)結(jié)果。
表5 歸類概率及判斷結(jié)果(精確到萬分位)
利用式(4)~(10)及式(3)可求出樣本隸屬各類的概率,并按最大概率原則歸類,計算結(jié)果見表5。
說明:從表5的判定結(jié)果知該模型的擬合預(yù)測精確為100%,表明logistic回歸為概率型非線性回歸模型具有很高的區(qū)分度,也說明將此類問題轉(zhuǎn)化成類別識別或模式識別問題來解決完全可行。另外,將該類問題看成決策問題用概率統(tǒng)計理論方法解答克服了傳統(tǒng)單一模型方法精確不高的缺點(diǎn)。
下面給同3個測試樣本(2017年全國大學(xué)生數(shù)學(xué)建模C題),見表6。
表6 測試樣本的二氧化硫的濃度與顏色讀數(shù)
將表6中3個樣本的特征指標(biāo)值代入式(4)至式(10),并按式(3)求得樣本屬于各類的概率,并按最大概率歸類,如表7所示。
表7 測試樣本的濃度預(yù)測結(jié)果(精確到萬分位)
可見預(yù)測精度為100%,說明多項(xiàng)logistic概率回歸模型具有非常高的擬合預(yù)測能力,用物質(zhì)濃度預(yù)測、以及其他模式識別或類別辨識完全可行。
logistic回歸模型是一種基于概率的多元非線性問題的處理方法。實(shí)例分析表明該方法用于類別辨識或模式識別具有很高的精確度。對樣本物質(zhì)濃度進(jìn)行適當(dāng)類別劃分,用表征濃度的特征數(shù)值創(chuàng)建多項(xiàng) logistic回歸模型,并用統(tǒng)計軟件SPSS估算模型系數(shù),通過對建模樣本和測試樣本的擬合預(yù)測精度的分析,準(zhǔn)確度均達(dá)到100%,表明該模型預(yù)測效果很好,值得工程技術(shù)人員借鑒。