劉建清
摘要:物質(zhì)濃度與其不同顏色讀數(shù)間存著非線性關(guān)系,用物質(zhì)顏色讀數(shù)辨識物質(zhì)濃度是一個多維非線性數(shù)據(jù)處理問題。傳統(tǒng)比色法是一種人工檢測物質(zhì)濃度的方法,但該方法常因人對顏色的敏感差異和觀測誤差導(dǎo)致對物質(zhì)濃度出現(xiàn)不準(zhǔn)確的判斷。為克服這傳統(tǒng)人工檢測物質(zhì)濃度的不足,建立了基于 Bayes逐步判別分析模型的物質(zhì)濃度辨識方法,實例分析表明該方法具有很高的精確度,用該方法進(jìn)行物質(zhì)濃度辨識完全可行。
關(guān)鍵詞:物質(zhì)濃度;模式識別;Bayes逐步判別分析;概率
中圖分類號:TP7 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9416(2018)09-0062-03
比色法是目前常用的一種檢測物質(zhì)濃度的方法,即把待測物質(zhì)制備成溶液后滴在特定的白色試紙表面,等其充分反應(yīng)以后獲得一張有顏色的試紙,再把該顏色試紙與一個標(biāo)準(zhǔn)比色卡進(jìn)行對比,就可以確定待測物質(zhì)的濃度檔位了。由于每個人對顏色的敏感差異和觀測誤差,使得這一方法在精度上受到很大影響。隨著照相技術(shù)和顏色分辨率的提高,希望建立顏色讀數(shù)和物質(zhì)濃度的數(shù)學(xué)模型,即只要給模型輸入照片中的顏色讀數(shù)就能夠通過計算獲得待測物質(zhì)的濃度,而模型的精度直接關(guān)系著待測物質(zhì)濃度的準(zhǔn)確性,見于監(jiān)測數(shù)據(jù)呈現(xiàn)明顯的類狀或族狀,可以將物質(zhì)濃度判斷問題歸結(jié)為類別辨誤問題或模式識別問題。為此,本文在已知顏色讀數(shù)和相應(yīng)物質(zhì)濃度實驗數(shù)據(jù)的基礎(chǔ)上建立了基于Bayes逐步判別分析的物質(zhì)濃度識別模型,該模型是實質(zhì)上是一種多元非線性概率回歸分析模型,實例分析表明用該模型預(yù)測物質(zhì)濃度具有很高的精確度,好于支持向量機(jī)[1-2]、神經(jīng)網(wǎng)絡(luò)[3-4]等辨識模型,值得工程技術(shù)人員借鑒。
1 Bayes逐步判別分析簡介
判別分析的是在已知分類數(shù)目的情況下,利用統(tǒng)計方法和某個準(zhǔn)則對任意給定的一個樣品判斷其所屬的類別。
Bayers準(zhǔn)則適合于多個類別(3個或3個以上)判別,它把M(M≥3)組(類)樣品看成M個總體U1,U2,…,UM(這些總體服從正態(tài)分布),對于待判樣品(為變量數(shù)),在 Bayers準(zhǔn)則下計算屬于各總體的后驗概率,,…,(利用多元正態(tài)分布概率密度計算),最后將歸屬于后驗概率最大的那一組(類)[5-6]。
2 數(shù)據(jù)來源及模型建立
2017年全國大學(xué)生數(shù)學(xué)建模C題給出一組二氧化硫的濃度與其顏色的讀數(shù),如表1所示。
首先按濃度大小分類,將濃度為0,20,30,50,80,100,150對應(yīng)的樣本分別看成一類,共7類,類別值分別為1,2,3,4,5,6,7。當(dāng)類別值為1時,則對應(yīng)的濃度為0;當(dāng)類別值為2時,則對應(yīng)的濃度為20;當(dāng)類別值3時,則對應(yīng)的濃度為30;當(dāng)類別值4時,則對應(yīng)的濃度為50;依次類推。
將表1中二氧化硫指標(biāo)數(shù)據(jù)及相應(yīng)類別值列導(dǎo)入SPSS19中,選擇“分析”|“分類”|“判別”命令,按提示對話框完成所有操作,得到的Bayes準(zhǔn)則[7-8]下逐步線性判別函數(shù)為:
模型信息:如表2所示。
第一特征根2895.620,能夠解釋所有變異的99.1%。
表3中的Sig均為0,說明7個典型判別方程的判別能力都是顯著的,并且剔除掉了指標(biāo)(色調(diào)H)。下面給出模型的反向檢驗結(jié)果。
將表1中樣本的4個指標(biāo)值代入上述式(1)~(7)求每個樣本的類別值(Y1,Y2,Y3,Y4,Y5,Y6,Y7,無需轉(zhuǎn)化成后驗概率),以最大值原則歸類,計算結(jié)果見表4。
下面給同3個測試樣本(2017年全國大學(xué)生數(shù)學(xué)建模C題),見表5。
將表6中3個樣本的特征指標(biāo)值代入式(1)至式(7),求得樣本屬于各類的類別值,并按最大類別值歸類,如表6所示。
可見預(yù)測精度為100%,說明多項Bayes逐步判別概率回歸模型具有非常高的擬合預(yù)測能力,用物質(zhì)濃度預(yù)測、以及其他模式識別或類別辨識完全可行。
3 結(jié)語
Bayes逐步判別回歸模型是一種基于概率的多元非線性問題的處理方法。實例分析表明該方法用于類別辨識或模式識別具有很高的精確度。對樣本物質(zhì)濃度進(jìn)行適當(dāng)類別劃分,用表征濃度的特征數(shù)值創(chuàng)建多項logistic回歸模型,并用統(tǒng)計軟件SPSS估算模型系數(shù),通過對建模樣本和測試樣本的擬合預(yù)測精度的分析,準(zhǔn)確度均達(dá)到100%,表明該模型預(yù)測效果很好,值得工程技術(shù)人員借鑒。
參考文獻(xiàn)
[1]平源.基于支持向量機(jī)的聚類及文本分類研究[D].北京:北京郵電大學(xué),2012.
[2]谷文成,柴寶仁,滕艷平.基于粒子群優(yōu)化算法的支持向量機(jī)研究[J].北京理工大學(xué)學(xué)報,2014,(7):705-709.
[3]張建強(qiáng),高世家,趙霽紅.艦船RCS特征提取與GA-BP神經(jīng)網(wǎng)絡(luò)分類研究[J].艦船科學(xué)技術(shù),2016,(3):125-130.
[4]張紹兵.基于神經(jīng)網(wǎng)絡(luò)的規(guī)則提取與分類算法的研究[D].哈爾濱:哈爾濱工程大學(xué),2006.
[5]王江榮,文暉,張克功,等.基于極大似然估計的logistic回歸模型在煤與瓦斯突出危險等級評價中的應(yīng)用[J].煤,2015,(2):22-24,39.
[6]謝中華.MATLAB統(tǒng)計分析與應(yīng)用40個案例分析[M].北京:北京航空航天大學(xué)出版,2010.
[7]楊維忠,張?zhí)?SPSS統(tǒng)計分析與行業(yè)應(yīng)用案例詳解[M].北京:清華大學(xué)出版社,2011.
[8]王江榮.基于SPSS的貝葉斯逐步線性判別法在煤炭種類識別中的應(yīng)用[J].選煤技術(shù),2014,(5):64-67.