基于帶RBF核的SVM模型對(duì)紅酒品質(zhì)的精準(zhǔn)分類

2021-07-12 10:31:26李琴朱家明郎紅宋國(guó)鋒

湖北大學(xué)學(xué)報(bào)(自然科學(xué)版) 2021年4期

李琴，朱家明，郎紅，宋國(guó)鋒

(安徽財(cái)經(jīng)大學(xué)統(tǒng)計(jì)與應(yīng)用數(shù)學(xué)學(xué)院，安徽蚌埠 233030)

0 引言

隨著人們生活水平的不斷提高，近年來(lái)，紅酒已然成為了大眾的日需品，使得紅酒產(chǎn)量不斷加大，同時(shí)關(guān)于紅酒品質(zhì)的鑒定也是一大問(wèn)題.傳統(tǒng)的人工品鑒存在很多弊端，人工品鑒沒(méi)有統(tǒng)一的評(píng)估標(biāo)準(zhǔn)，效率低、易導(dǎo)致較大誤差、且成本較高.故根據(jù)紅酒的各項(xiàng)理化指標(biāo)，對(duì)紅酒品質(zhì)進(jìn)行精準(zhǔn)鑒定，探究不同理化指標(biāo)對(duì)紅酒品質(zhì)的作用效力，以此為目的建立數(shù)學(xué)模型，進(jìn)行探究分類預(yù)測(cè)，對(duì)紅酒企業(yè)提高紅酒品質(zhì)、減少品質(zhì)錯(cuò)評(píng)誤差、提高企業(yè)競(jìng)爭(zhēng)力有很大的現(xiàn)實(shí)意義.同時(shí)，解決如何精準(zhǔn)預(yù)測(cè)紅酒品質(zhì)鑒定的問(wèn)題在節(jié)約成本、調(diào)高效率方面也具有重要意義.

基于以往的紅酒品質(zhì)分類問(wèn)題和典型分類模型研究，梁書綺[1]通過(guò)收集大量數(shù)據(jù)，運(yùn)用樸素貝葉斯原理以及機(jī)器學(xué)習(xí)，構(gòu)建基于樸素貝葉斯原理的紅酒品質(zhì)預(yù)測(cè)模型，在小錯(cuò)誤率下對(duì)其進(jìn)行準(zhǔn)確預(yù)測(cè)，證明了樸素貝葉斯算法在紅酒品質(zhì)預(yù)測(cè)中的實(shí)際實(shí)用性.劉攀[2]則通過(guò)利用RBF神經(jīng)網(wǎng)絡(luò)和樸素貝葉斯分類算法相結(jié)合的機(jī)器學(xué)習(xí)理論構(gòu)建分類模型來(lái)提高紅酒品質(zhì)分類的準(zhǔn)確度，并通過(guò)改進(jìn)算法發(fā)現(xiàn)該方法具有較高的分類精度，但泛化能力不理想.畢艷亮等[3]使用人工智能理論中的BP神經(jīng)網(wǎng)絡(luò)構(gòu)建分類模型，實(shí)現(xiàn)對(duì)紅酒品質(zhì)的高效分類，雖使用改進(jìn)的遺傳算法對(duì)其優(yōu)化后，分類效果顯著，但分類準(zhǔn)確率還有待提高.聶樹(shù)林和姚仰新[4]基于Beyes思想與RBF核結(jié)合的B-RBFN分類器進(jìn)行一定數(shù)量的樣本算法學(xué)習(xí)之后達(dá)到了較好的分類性能，且給出較具體的“屬于”參數(shù).朱芳等[5]采用改進(jìn)的網(wǎng)絡(luò)搜索法選取核參數(shù)，通過(guò)UCI數(shù)據(jù)集驗(yàn)證了帶RBF的SVM模型的有效性，較其他核函數(shù)更具優(yōu)勢(shì).

本研究針對(duì)以往紅酒品質(zhì)分類過(guò)程中復(fù)雜且低效的問(wèn)題，使用帶RBF核的SVM模型解決數(shù)據(jù)分類問(wèn)題.同時(shí)在挖掘不同因素重要程度上，通過(guò)將RFE、深層次回歸分析和ANPVA結(jié)合，構(gòu)造作用效力挖掘模型進(jìn)行研究.

1 數(shù)據(jù)來(lái)源及假設(shè)

本研究數(shù)據(jù)來(lái)源于2020寧夏大學(xué)生數(shù)學(xué)建模競(jìng)賽E題，依據(jù)紅酒的11個(gè)理化指標(biāo)[14]：酒精的濃度、pH 值、糖的含量、非揮發(fā)性酸含量、揮發(fā)性酸含量、檸檬酸含量、氯化物含量、游離二氧化硫、總二氧化硫、密度、硫酸鹽含量，來(lái)綜合評(píng)價(jià)紅酒品質(zhì)屬于0～11的某個(gè)等級(jí).為了便于處理問(wèn)題，提出以下假設(shè);1)數(shù)據(jù)真實(shí)可用；2)認(rèn)為紅酒的品質(zhì)只受附件所給的理化指標(biāo)影響；3)所有紅酒在口感等方面一模一樣，不影響品質(zhì)；4)假設(shè)數(shù)據(jù)分布均勻.

2 相關(guān)模型、算法和建立求解

2.1 模型和算法1)帶RBF核的SVM(支持向量機(jī))模型[6].SVM(支持向量機(jī))[7]是一種分類模型，它定義在空間中的一個(gè)可以將所有數(shù)據(jù)劃分的超平面上，且使得所有數(shù)據(jù)集中到這個(gè)超平面的距離最短.例如a·x+b=0為分離超平面，對(duì)于線性可分的數(shù)據(jù)集來(lái)說(shuō)，這樣的超平面有無(wú)窮多個(gè)，但距離之和最小的超平面是唯一的.

針對(duì)帶RBF核的SVM模型，其模型算法簡(jiǎn)單方便，可直接用于分類預(yù)測(cè).模型整體準(zhǔn)確率較高，且在面對(duì)較少樣本時(shí)也能具有顯著的準(zhǔn)確率.在一定情況下，較準(zhǔn)確的函數(shù)參數(shù)可以顯著提高SVM模型的準(zhǔn)確率，且大量訓(xùn)練集樣本也可顯著提高模型準(zhǔn)確率.

2)作用效力挖掘模型.①深層次回歸模型.回歸模型是極其常見(jiàn)的探究多個(gè)自變量與因變量之間關(guān)系的模型.設(shè)有n個(gè)自變量分別為x1,x2,…,xn，因變量為Y，則建立多重線性回歸模型，形如Y=β0+β1x1+β2x2+…+βnxn+ε，其中ε為誤差項(xiàng).

接著使用深層次回歸分析計(jì)算相對(duì)權(quán)重，對(duì)所有可能的子模型中添加一個(gè)預(yù)測(cè)變量引起的擬合優(yōu)度平均增加量的一個(gè)近似值，從而計(jì)算出每個(gè)自變量解釋回歸模型擬合優(yōu)度能力，即得到各個(gè)自變量的相對(duì)重要性.

②單因素方差分析模型.單因素方差分析是指試驗(yàn)中只有一個(gè)影響試驗(yàn)指標(biāo)的條件改變，并對(duì)試驗(yàn)數(shù)據(jù)進(jìn)行分析，判斷單因素對(duì)試驗(yàn)指標(biāo)的影響是否顯著.設(shè)單因素A有r個(gè)水平，分別記為A1,A2,…,Ar，在每個(gè)水平下，需考察的指標(biāo)可以被看作是一個(gè)總體Xi(i=1,2,…,r)，且Xi～N(μi,σ2).在各水平下進(jìn)行ni次獨(dú)立檢驗(yàn)，樣本記作如下所示Xij(i=r,j=ni),Xij～N(μi,σ2)且相互獨(dú)立.

假設(shè)：H0:μ1=μ2=…=μr，H1:μ1,μ2,…,μr不全相等.

2.2 建模過(guò)程

2.2.1 SVM模型

1)數(shù)據(jù)預(yù)處理.首先，利用R將數(shù)據(jù)集中顯示為“N”的設(shè)置為缺失值，進(jìn)行行刪除處理.同時(shí)利用R的as.numeric()函數(shù)將所有數(shù)據(jù)轉(zhuǎn)化為數(shù)字型數(shù)據(jù)，供后續(xù)建模使用.接著使用遞歸特征刪除模型[8]，將紅酒的理化指標(biāo)進(jìn)行篩選，并且為提高準(zhǔn)確率，選擇整個(gè)紅酒品質(zhì)數(shù)據(jù)集作為模型的訓(xùn)練集.

2)模型的建立.假設(shè)給定一個(gè)特征空間上的訓(xùn)練數(shù)據(jù)集T={(x1,y1),(x2,y2),…,(xn,yn)}.其中，xi∈Rn,yi∈{+1,-1},i=1,2,…,N,xi為第i個(gè)特征向量，yi為類標(biāo)記，當(dāng)它等于+1時(shí)為正例；為-1時(shí)為負(fù)例.

3)模型的求解.使用R構(gòu)建帶RBF核的SVM模型，將數(shù)據(jù)集中quality作為分類目標(biāo)，其余變量作為判斷標(biāo)準(zhǔn)，構(gòu)建第一個(gè)普通SVM模型.接著，通過(guò)R中tune.svm()函數(shù)對(duì)SVM模型中的gamma參數(shù)值和cost參數(shù)值進(jìn)行擇優(yōu)，擬合出新的SVM模型.通過(guò)帶回紅酒品質(zhì)數(shù)據(jù)集進(jìn)行對(duì)比分析，我們發(fā)現(xiàn)利用帶RBF核的SVM模型的準(zhǔn)確率高達(dá)74.01%，其中準(zhǔn)確分類個(gè)數(shù)為2 862個(gè)，錯(cuò)誤分類個(gè)數(shù)為1 005個(gè).

同時(shí)，對(duì)錯(cuò)誤分類的數(shù)據(jù)進(jìn)行分類分析，我們發(fā)現(xiàn)數(shù)據(jù)的誤差絕對(duì)值也大多為1，即錯(cuò)判致相鄰品質(zhì)的紅酒數(shù)量，占比為23.89%，還有極少數(shù)錯(cuò)判分類誤差絕對(duì)值為2或3的數(shù)據(jù)，占比分別為1.91%和0.18%.

2.2.2 作用效力挖掘模型其模型示意如圖1.

圖1 作用效力挖掘模型示意圖

1)數(shù)據(jù)預(yù)處理.首先，在進(jìn)行RFE[9]指標(biāo)篩選及后面的深層次回歸分析，需要先將附件表格內(nèi)的數(shù)據(jù)轉(zhuǎn)換為數(shù)字型，通過(guò)R的as. numeric()函數(shù)即可進(jìn)行快速轉(zhuǎn)換.

2)模型的建立.首先根據(jù)遞歸特征刪除進(jìn)行紅酒理化指標(biāo)的篩選，接著構(gòu)建回歸模型，利用深層次回歸分析[12]計(jì)算指標(biāo)的相對(duì)權(quán)重，從而對(duì)理化指標(biāo)的重要性進(jìn)行描述并排序，得到影響品質(zhì)的前三種理化指標(biāo).最后利用單因素方差分析，若不同品質(zhì)間的紅酒的三種理化指標(biāo)皆具有顯著差異，則可認(rèn)為其對(duì)紅酒品質(zhì)分類有著顯著性影響，即可證明結(jié)論成立[10].

3)模型的求解.首先，運(yùn)用R進(jìn)行遞歸特征刪除，結(jié)果顯示11種理化指標(biāo)特征值相接近，說(shuō)明無(wú)法剔除任何一種理化指標(biāo)，即根據(jù)特征值，11種理化指標(biāo)都是影響紅酒品質(zhì)分類值的重要因素[13].

于是對(duì)各指標(biāo)的重要度進(jìn)行分析，構(gòu)建多元線性回歸模型，利用深層次回歸分析計(jì)算相對(duì)權(quán)重，得出影響紅酒品質(zhì)分類的前三個(gè)指標(biāo)分別為alcohol(酒精)、density(密度)和volatile acidity(揮發(fā)性酸含量).其中alcohol(酒精)這一指標(biāo)對(duì)紅酒品質(zhì)分類值的解釋能力達(dá)到43%，density(密度)和volatile acidity(揮發(fā)性酸含量)的解釋能力則分別達(dá)到20%和13%,如圖2所示.

圖2 各理化指標(biāo)的重要程度

4)回歸檢驗(yàn).分別通過(guò)對(duì)酒精、密度和揮發(fā)性酸含量三種理化指標(biāo)數(shù)據(jù)進(jìn)行ANOVE分析，驗(yàn)證以上結(jié)論，結(jié)果如下表1所示.結(jié)果顯示，不同品質(zhì)之間的酒精、密度和揮發(fā)性酸含量皆具有顯著的差異性，即可驗(yàn)證上述深層次回歸分析得到的結(jié)論.

表1 方差分析表

3 SVM模型的改進(jìn)

運(yùn)用試點(diǎn)法，利用R分別構(gòu)建gamma值為0.1，0.2，0.3，0.4，0.5，0.6的SVM模型，并分別對(duì)測(cè)試集進(jìn)行分類預(yù)測(cè).將附件中數(shù)據(jù)拆分為訓(xùn)練集和測(cè)試集，比例分別為70%和30%，使用相同訓(xùn)練集數(shù)據(jù)及不同gamma參數(shù)構(gòu)建的不同SVM模型對(duì)測(cè)試集進(jìn)行分類預(yù)測(cè)，并計(jì)算準(zhǔn)確率和收集誤差類型，從而進(jìn)行誤差值分析.

同時(shí)，通過(guò)繪制不同gamma值對(duì)應(yīng)的SVM模型準(zhǔn)確率趨勢(shì)圖，可以清晰看到，當(dāng)不斷增加gamma值時(shí)，其SVM模型的準(zhǔn)確率也在不斷上升，如圖3所示.則說(shuō)明，所提出的方法二，通過(guò)改變SVM的gamma參數(shù)值，可以提升SVM模型的準(zhǔn)確率.

圖3 不同gamma水平下模型準(zhǔn)確率變化趨勢(shì)

同時(shí)，對(duì)不同類型的誤差值進(jìn)行誤差分析，可以發(fā)現(xiàn)改變gamma模型可以顯著降低錯(cuò)判誤差為1的數(shù)據(jù).但同時(shí)，我們發(fā)現(xiàn)不同gamma水平下誤差值為2和3的數(shù)據(jù)個(gè)數(shù)卻并非呈現(xiàn)出單調(diào)趨勢(shì).

綜上，我們通過(guò)分別對(duì)準(zhǔn)確率和大誤差進(jìn)行賦權(quán)，構(gòu)建出擇優(yōu)模型.

Z=100γ0-0.045γ1-0.25γ2-0.5γ3，

當(dāng)擇優(yōu)模型達(dá)到最大值，所輸出的gamma值即為最佳SVM模型的gamma參數(shù)值,如圖4所示.

圖4 舍去gamma水平的模型z得分

4 結(jié)果與分析

研究顯示，利用帶RBF核的SVM模型的準(zhǔn)確率高達(dá)74.01%.同時(shí)，對(duì)錯(cuò)誤分類的數(shù)據(jù)進(jìn)行分類分析，我們發(fā)現(xiàn)數(shù)據(jù)的誤差絕對(duì)值也大多為1，即錯(cuò)判至相鄰品質(zhì)的紅酒數(shù)量.由此可說(shuō)明SVM模型對(duì)紅酒進(jìn)行品質(zhì)預(yù)測(cè)的結(jié)果具有較高的準(zhǔn)確率，且SVM模型誤差值小，能夠在極大程度上避免產(chǎn)生以次充好、高品質(zhì)被錯(cuò)判成差品質(zhì)而導(dǎo)致的欺騙顧客、成本浪費(fèi)的情況，對(duì)于紅酒企業(yè)也具有現(xiàn)實(shí)意.

遞歸特征刪除結(jié)果顯示11種理化指標(biāo)特征值相接近[15]，說(shuō)明無(wú)法剔除任何一種理化指標(biāo)，即根據(jù)特征值，11種理化指標(biāo)都是影響紅酒品質(zhì)分類值的重要因素.于是對(duì)各指標(biāo)的重要度進(jìn)行分析，構(gòu)建多元線性回歸模型，利用深層次回歸分析計(jì)算相對(duì)權(quán)重，得出影響紅酒品質(zhì)分類的前三個(gè)指標(biāo)分別為alcohol(酒精)、density(密度)和volatile acidity(揮發(fā)性酸含量).其中alcohol(酒精)這一指標(biāo)對(duì)紅酒品質(zhì)分類值的解釋能力達(dá)到43%，density(密度)和volatile acidity(揮發(fā)性酸含量)的解釋能力則分別達(dá)到20%和13%.最后，分別通過(guò)對(duì)酒精、密度和揮發(fā)性酸含量三種理化指標(biāo)數(shù)據(jù)進(jìn)行ANOVE分析，以驗(yàn)證以上結(jié)論.結(jié)果顯示，不同品質(zhì)之間的酒精、密度和揮發(fā)性酸含量皆具有顯著的差異性.

模型改進(jìn)結(jié)果顯示：當(dāng)不斷增加gamma值時(shí)，其SVM模型的準(zhǔn)確率也在不斷上升.則說(shuō)明，所提出的方法二，即通過(guò)改變SVM的gamma參數(shù)值，可以提升SVM模型的準(zhǔn)確率.最后發(fā)現(xiàn)當(dāng)gamma值為0.6時(shí)，擇優(yōu)模型得到最大值，則可認(rèn)為gamma區(qū)間為[0.1，0.6]，gamma值達(dá)到0.6時(shí)，SVM模型分類精準(zhǔn)率達(dá)到最優(yōu).同時(shí)，對(duì)不同類型的誤差值進(jìn)行誤差分析，可以發(fā)現(xiàn)改變gamma模型可以顯著降低錯(cuò)判誤差為1的數(shù)據(jù).但同時(shí)，我們發(fā)現(xiàn)不同gamma水平下誤差值為2和3的數(shù)據(jù)個(gè)數(shù)卻并非呈現(xiàn)出單調(diào)趨勢(shì).通過(guò)觀察gamma值分別為0.4和0.5的得分可知，雖然gamma值為0.5的模型精準(zhǔn)率高，但同時(shí)產(chǎn)生的大誤差數(shù)量也多，所以在權(quán)衡比較z得分后，gamma值為0.4時(shí)的模型準(zhǔn)確率更高，相比之下更優(yōu).

5 結(jié)束語(yǔ)

若取附件數(shù)據(jù)內(nèi)不同品質(zhì)的紅酒的各項(xiàng)理化指標(biāo)的平均值進(jìn)行SVM模型構(gòu)建，再次進(jìn)行預(yù)測(cè).結(jié)果顯示，準(zhǔn)確率能夠保持在較高水平，數(shù)值為85.7%.同時(shí)其中錯(cuò)誤估計(jì)的誤差不大于1，對(duì)紅酒品質(zhì)錯(cuò)誤判斷也只會(huì)錯(cuò)判至相鄰的品質(zhì)，不會(huì)造成過(guò)分誤差及損失，能夠在極大程度上避免產(chǎn)生以次充好、高品質(zhì)被錯(cuò)判成差品質(zhì)而導(dǎo)致的欺騙顧客、成本浪費(fèi)的情況.對(duì)紅酒企業(yè)而言，這對(duì)營(yíng)造企業(yè)形象、獲取經(jīng)濟(jì)利益也具有現(xiàn)實(shí)意義.

基于SVM模型解決精準(zhǔn)紅酒品質(zhì)分類問(wèn)題的模型，可以進(jìn)行拓展推廣.本研究將改進(jìn)的SVM模型用以解決分類問(wèn)題，在原有的基礎(chǔ)上顯著提高分類準(zhǔn)確率，對(duì)各大企業(yè)提高商品品質(zhì)、減少品質(zhì)錯(cuò)評(píng)誤差、提高企業(yè)競(jìng)爭(zhēng)力上有很大的現(xiàn)實(shí)意義.同時(shí)，解決如何精準(zhǔn)預(yù)測(cè)不同商品品質(zhì)鑒定的問(wèn)題在節(jié)約成本、調(diào)高效率上具有顯著意義.

此外，本研究將遞歸刪除法、深層次回歸分析及單因素方差分析相結(jié)合，構(gòu)建作用效力挖掘模型，以此解決不同變量間作用效力的描繪排序.該模型針對(duì)經(jīng)濟(jì)、科技、農(nóng)業(yè)、醫(yī)學(xué)、環(huán)境乃至社會(huì)發(fā)展等方面的影響因素相關(guān)性分析上具有廣泛的應(yīng)用，如研究地區(qū)旅游經(jīng)濟(jì)的影響因素效力作用等問(wèn)題.