李琴,朱家明,郎紅,宋國(guó)鋒
(安徽財(cái)經(jīng)大學(xué)統(tǒng)計(jì)與應(yīng)用數(shù)學(xué)學(xué)院, 安徽 蚌埠 233030)
隨著人們生活水平的不斷提高,近年來(lái),紅酒已然成為了大眾的日需品,使得紅酒產(chǎn)量不斷加大,同時(shí)關(guān)于紅酒品質(zhì)的鑒定也是一大問(wèn)題.傳統(tǒng)的人工品鑒存在很多弊端,人工品鑒沒(méi)有統(tǒng)一的評(píng)估標(biāo)準(zhǔn),效率低、易導(dǎo)致較大誤差、且成本較高.故根據(jù)紅酒的各項(xiàng)理化指標(biāo),對(duì)紅酒品質(zhì)進(jìn)行精準(zhǔn)鑒定,探究不同理化指標(biāo)對(duì)紅酒品質(zhì)的作用效力,以此為目的建立數(shù)學(xué)模型,進(jìn)行探究分類預(yù)測(cè),對(duì)紅酒企業(yè)提高紅酒品質(zhì)、減少品質(zhì)錯(cuò)評(píng)誤差、提高企業(yè)競(jìng)爭(zhēng)力有很大的現(xiàn)實(shí)意義.同時(shí),解決如何精準(zhǔn)預(yù)測(cè)紅酒品質(zhì)鑒定的問(wèn)題在節(jié)約成本、調(diào)高效率方面也具有重要意義.
基于以往的紅酒品質(zhì)分類問(wèn)題和典型分類模型研究,梁書綺[1]通過(guò)收集大量數(shù)據(jù),運(yùn)用樸素貝葉斯原理以及機(jī)器學(xué)習(xí),構(gòu)建基于樸素貝葉斯原理的紅酒品質(zhì)預(yù)測(cè)模型,在小錯(cuò)誤率下對(duì)其進(jìn)行準(zhǔn)確預(yù)測(cè),證明了樸素貝葉斯算法在紅酒品質(zhì)預(yù)測(cè)中的實(shí)際實(shí)用性.劉攀[2]則通過(guò)利用RBF神經(jīng)網(wǎng)絡(luò)和樸素貝葉斯分類算法相結(jié)合的機(jī)器學(xué)習(xí)理論構(gòu)建分類模型來(lái)提高紅酒品質(zhì)分類的準(zhǔn)確度,并通過(guò)改進(jìn)算法發(fā)現(xiàn)該方法具有較高的分類精度,但泛化能力不理想.畢艷亮等[3]使用人工智能理論中的BP神經(jīng)網(wǎng)絡(luò)構(gòu)建分類模型,實(shí)現(xiàn)對(duì)紅酒品質(zhì)的高效分類,雖使用改進(jìn)的遺傳算法對(duì)其優(yōu)化后,分類效果顯著,但分類準(zhǔn)確率還有待提高.聶樹(shù)林和姚仰新[4]基于Beyes思想與RBF核結(jié)合的B-RBFN分類器進(jìn)行一定數(shù)量的樣本算法學(xué)習(xí)之后達(dá)到了較好的分類性能,且給出較具體的“屬于”參數(shù).朱芳等[5]采用改進(jìn)的網(wǎng)絡(luò)搜索法選取核參數(shù),通過(guò)UCI數(shù)據(jù)集驗(yàn)證了帶RBF的SVM模型的有效性,較其他核函數(shù)更具優(yōu)勢(shì).
本研究針對(duì)以往紅酒品質(zhì)分類過(guò)程中復(fù)雜且低效的問(wèn)題,使用帶RBF核的SVM模型解決數(shù)據(jù)分類問(wèn)題.同時(shí)在挖掘不同因素重要程度上,通過(guò)將RFE、深層次回歸分析和ANPVA結(jié)合,構(gòu)造作用效力挖掘模型進(jìn)行研究.
本研究數(shù)據(jù)來(lái)源于2020寧夏大學(xué)生數(shù)學(xué)建模競(jìng)賽E題,依據(jù)紅酒的11個(gè)理化指標(biāo)[14]:酒精的濃度、pH 值、 糖的含量、非揮發(fā)性酸含量、 揮發(fā)性酸含量、檸檬酸含量、氯化物含量、游離二氧化硫、總二氧化硫、密度、硫酸鹽含量,來(lái)綜合評(píng)價(jià)紅酒品質(zhì)屬于0~11的某個(gè)等級(jí).為了便于處理問(wèn)題,提出以下假設(shè);1)數(shù)據(jù)真實(shí)可用;2)認(rèn)為紅酒的品質(zhì)只受附件所給的理化指標(biāo)影響;3)所有紅酒在口感等方面一模一樣,不影響品質(zhì);4)假設(shè)數(shù)據(jù)分布均勻.
2.1 模型和算法1)帶RBF核的SVM(支持向量機(jī))模型[6].SVM(支持向量機(jī))[7]是一種分類模型,它定義在空間中的一個(gè)可以將所有數(shù)據(jù)劃分的超平面上,且使得所有數(shù)據(jù)集中到這個(gè)超平面的距離最短.例如a·x+b=0為分離超平面,對(duì)于線性可分的數(shù)據(jù)集來(lái)說(shuō),這樣的超平面有無(wú)窮多個(gè),但距離之和最小的超平面是唯一的.
針對(duì)帶RBF核的SVM模型,其模型算法簡(jiǎn)單方便,可直接用于分類預(yù)測(cè).模型整體準(zhǔn)確率較高,且在面對(duì)較少樣本時(shí)也能具有顯著的準(zhǔn)確率.在一定情況下,較準(zhǔn)確的函數(shù)參數(shù)可以顯著提高SVM模型的準(zhǔn)確率,且大量訓(xùn)練集樣本也可顯著提高模型準(zhǔn)確率.
2)作用效力挖掘模型.①深層次回歸模型.回歸模型是極其常見(jiàn)的探究多個(gè)自變量與因變量之間關(guān)系的模型.設(shè)有n個(gè)自變量分別為x1,x2,…,xn,因變量為Y,則建立多重線性回歸模型,形如Y=β0+β1x1+β2x2+…+βnxn+ε,其中ε為誤差項(xiàng).
接著使用深層次回歸分析計(jì)算相對(duì)權(quán)重,對(duì)所有可能的子模型中添加一個(gè)預(yù)測(cè)變量引起的擬合優(yōu)度平均增加量的一個(gè)近似值,從而計(jì)算出每個(gè)自變量解釋回歸模型擬合優(yōu)度能力,即得到各個(gè)自變量的相對(duì)重要性.
②單因素方差分析模型.單因素方差分析是指試驗(yàn)中只有一個(gè)影響試驗(yàn)指標(biāo)的條件改變,并對(duì)試驗(yàn)數(shù)據(jù)進(jìn)行分析,判斷單因素對(duì)試驗(yàn)指標(biāo)的影響是否顯著.設(shè)單因素A有r個(gè)水平,分別記為A1,A2,…,Ar,在每個(gè)水平下,需考察的指標(biāo)可以被看作是一個(gè)總體Xi(i=1,2,…,r),且Xi~N(μi,σ2).在各水平下進(jìn)行ni次獨(dú)立檢驗(yàn),樣本記作如下所示Xij(i=r,j=ni),Xij~N(μi,σ2)且相互獨(dú)立.
假設(shè):H0:μ1=μ2=…=μr,H1:μ1,μ2,…,μr不全相等.
2.2 建模過(guò)程
2.2.1 SVM模型
1)數(shù)據(jù)預(yù)處理.首先,利用R將數(shù)據(jù)集中顯示為“N”的設(shè)置為缺失值,進(jìn)行行刪除處理.同時(shí)利用R的as.numeric()函數(shù)將所有數(shù)據(jù)轉(zhuǎn)化為數(shù)字型數(shù)據(jù),供后續(xù)建模使用.接著使用遞歸特征刪除模型[8],將紅酒的理化指標(biāo)進(jìn)行篩選,并且為提高準(zhǔn)確率,選擇整個(gè)紅酒品質(zhì)數(shù)據(jù)集作為模型的訓(xùn)練集.
2)模型的建立.假設(shè)給定一個(gè)特征空間上的訓(xùn)練數(shù)據(jù)集T={(x1,y1),(x2,y2),…,(xn,yn)}.其中,xi∈Rn,yi∈{+1,-1},i=1,2,…,N,xi為第i個(gè)特征向量,yi為類標(biāo)記,當(dāng)它等于+1時(shí)為正例;為-1時(shí)為負(fù)例.
3)模型的求解.使用R構(gòu)建帶RBF核的SVM模型,將數(shù)據(jù)集中quality作為分類目標(biāo),其余變量作為判斷標(biāo)準(zhǔn),構(gòu)建第一個(gè)普通SVM模型.接著,通過(guò)R中tune.svm()函數(shù)對(duì)SVM模型中的gamma參數(shù)值和cost參數(shù)值進(jìn)行擇優(yōu),擬合出新的SVM模型.通過(guò)帶回紅酒品質(zhì)數(shù)據(jù)集進(jìn)行對(duì)比分析,我們發(fā)現(xiàn)利用帶RBF核的SVM模型的準(zhǔn)確率高達(dá)74.01%,其中準(zhǔn)確分類個(gè)數(shù)為2 862個(gè),錯(cuò)誤分類個(gè)數(shù)為1 005個(gè).
同時(shí),對(duì)錯(cuò)誤分類的數(shù)據(jù)進(jìn)行分類分析,我們發(fā)現(xiàn)數(shù)據(jù)的誤差絕對(duì)值也大多為1,即錯(cuò)判致相鄰品質(zhì)的紅酒數(shù)量,占比為23.89%,還有極少數(shù)錯(cuò)判分類誤差絕對(duì)值為2或3的數(shù)據(jù),占比分別為1.91%和0.18%.
2.2.2 作用效力挖掘模型 其模型示意如圖1.
圖1 作用效力挖掘模型示意圖
1)數(shù)據(jù)預(yù)處理.首先,在進(jìn)行RFE[9]指標(biāo)篩選及后面的深層次回歸分析,需要先將附件表格內(nèi)的數(shù)據(jù)轉(zhuǎn)換為數(shù)字型,通過(guò)R的as. numeric()函數(shù)即可進(jìn)行快速轉(zhuǎn)換.
2)模型的建立.首先根據(jù)遞歸特征刪除進(jìn)行紅酒理化指標(biāo)的篩選,接著構(gòu)建回歸模型,利用深層次回歸分析[12]計(jì)算指標(biāo)的相對(duì)權(quán)重,從而對(duì)理化指標(biāo)的重要性進(jìn)行描述并排序,得到影響品質(zhì)的前三種理化指標(biāo).最后利用單因素方差分析,若不同品質(zhì)間的紅酒的三種理化指標(biāo)皆具有顯著差異,則可認(rèn)為其對(duì)紅酒品質(zhì)分類有著顯著性影響,即可證明結(jié)論成立[10].
3)模型的求解.首先,運(yùn)用R進(jìn)行遞歸特征刪除,結(jié)果顯示11種理化指標(biāo)特征值相接近,說(shuō)明無(wú)法剔除任何一種理化指標(biāo),即根據(jù)特征值,11種理化指標(biāo)都是影響紅酒品質(zhì)分類值的重要因素[13].
于是對(duì)各指標(biāo)的重要度進(jìn)行分析,構(gòu)建多元線性回歸模型,利用深層次回歸分析計(jì)算相對(duì)權(quán)重,得出影響紅酒品質(zhì)分類的前三個(gè)指標(biāo)分別為alcohol(酒精)、density(密度)和volatile acidity(揮發(fā)性酸含量).其中alcohol(酒精)這一指標(biāo)對(duì)紅酒品質(zhì)分類值的解釋能力達(dá)到43%,density(密度)和volatile acidity(揮發(fā)性酸含量)的解釋能力則分別達(dá)到20%和13%,如圖2所示.
圖2 各理化指標(biāo)的重要程度
4)回歸檢驗(yàn).分別通過(guò)對(duì)酒精、密度和揮發(fā)性酸含量三種理化指標(biāo)數(shù)據(jù)進(jìn)行ANOVE分析,驗(yàn)證以上結(jié)論,結(jié)果如下表1所示.結(jié)果顯示,不同品質(zhì)之間的酒精、密度和揮發(fā)性酸含量皆具有顯著的差異性,即可驗(yàn)證上述深層次回歸分析得到的結(jié)論.
表1 方差分析表
運(yùn)用試點(diǎn)法,利用R分別構(gòu)建gamma值為0.1,0.2,0.3,0.4,0.5,0.6的SVM模型,并分別對(duì)測(cè)試集進(jìn)行分類預(yù)測(cè).將附件中數(shù)據(jù)拆分為訓(xùn)練集和測(cè)試集,比例分別為70%和30%,使用相同訓(xùn)練集數(shù)據(jù)及不同gamma參數(shù)構(gòu)建的不同SVM模型對(duì)測(cè)試集進(jìn)行分類預(yù)測(cè),并計(jì)算準(zhǔn)確率和收集誤差類型,從而進(jìn)行誤差值分析.
同時(shí),通過(guò)繪制不同gamma值對(duì)應(yīng)的SVM模型準(zhǔn)確率趨勢(shì)圖,可以清晰看到,當(dāng)不斷增加gamma值時(shí),其SVM模型的準(zhǔn)確率也在不斷上升,如圖3所示.則說(shuō)明,所提出的方法二,通過(guò)改變SVM的gamma參數(shù)值,可以提升SVM模型的準(zhǔn)確率.
圖3 不同gamma水平下模型準(zhǔn)確率變化趨勢(shì)
同時(shí),對(duì)不同類型的誤差值進(jìn)行誤差分析,可以發(fā)現(xiàn)改變gamma模型可以顯著降低錯(cuò)判誤差為1的數(shù)據(jù).但同時(shí),我們發(fā)現(xiàn)不同gamma水平下誤差值為2和3的數(shù)據(jù)個(gè)數(shù)卻并非呈現(xiàn)出單調(diào)趨勢(shì).
綜上,我們通過(guò)分別對(duì)準(zhǔn)確率和大誤差進(jìn)行賦權(quán),構(gòu)建出擇優(yōu)模型.
Z=100γ0-0.045γ1-0.25γ2-0.5γ3,
當(dāng)擇優(yōu)模型達(dá)到最大值,所輸出的gamma值即為最佳SVM模型的gamma參數(shù)值,如圖4所示.
圖4 舍去gamma水平的模型z得分
研究顯示,利用帶RBF核的SVM模型的準(zhǔn)確率高達(dá)74.01%.同時(shí),對(duì)錯(cuò)誤分類的數(shù)據(jù)進(jìn)行分類分析,我們發(fā)現(xiàn)數(shù)據(jù)的誤差絕對(duì)值也大多為1,即錯(cuò)判至相鄰品質(zhì)的紅酒數(shù)量.由此可說(shuō)明SVM模型對(duì)紅酒進(jìn)行品質(zhì)預(yù)測(cè)的結(jié)果具有較高的準(zhǔn)確率,且SVM模型誤差值小,能夠在極大程度上避免產(chǎn)生以次充好、高品質(zhì)被錯(cuò)判成差品質(zhì)而導(dǎo)致的欺騙顧客、成本浪費(fèi)的情況,對(duì)于紅酒企業(yè)也具有現(xiàn)實(shí)意.
遞歸特征刪除結(jié)果顯示11種理化指標(biāo)特征值相接近[15],說(shuō)明無(wú)法剔除任何一種理化指標(biāo),即根據(jù)特征值,11種理化指標(biāo)都是影響紅酒品質(zhì)分類值的重要因素.于是對(duì)各指標(biāo)的重要度進(jìn)行分析,構(gòu)建多元線性回歸模型,利用深層次回歸分析計(jì)算相對(duì)權(quán)重,得出影響紅酒品質(zhì)分類的前三個(gè)指標(biāo)分別為alcohol(酒精)、density(密度)和volatile acidity(揮發(fā)性酸含量).其中alcohol(酒精)這一指標(biāo)對(duì)紅酒品質(zhì)分類值的解釋能力達(dá)到43%,density(密度)和volatile acidity(揮發(fā)性酸含量)的解釋能力則分別達(dá)到20%和13%.最后,分別通過(guò)對(duì)酒精、密度和揮發(fā)性酸含量三種理化指標(biāo)數(shù)據(jù)進(jìn)行ANOVE分析,以驗(yàn)證以上結(jié)論.結(jié)果顯示,不同品質(zhì)之間的酒精、密度和揮發(fā)性酸含量皆具有顯著的差異性.
模型改進(jìn)結(jié)果顯示:當(dāng)不斷增加gamma值時(shí),其SVM模型的準(zhǔn)確率也在不斷上升.則說(shuō)明,所提出的方法二,即通過(guò)改變SVM的gamma參數(shù)值,可以提升SVM模型的準(zhǔn)確率.最后發(fā)現(xiàn)當(dāng)gamma值為0.6時(shí),擇優(yōu)模型得到最大值,則可認(rèn)為gamma區(qū)間為[0.1,0.6],gamma值達(dá)到0.6時(shí),SVM模型分類精準(zhǔn)率達(dá)到最優(yōu).同時(shí),對(duì)不同類型的誤差值進(jìn)行誤差分析,可以發(fā)現(xiàn)改變gamma模型可以顯著降低錯(cuò)判誤差為1的數(shù)據(jù).但同時(shí),我們發(fā)現(xiàn)不同gamma水平下誤差值為2和3的數(shù)據(jù)個(gè)數(shù)卻并非呈現(xiàn)出單調(diào)趨勢(shì).通過(guò)觀察gamma值分別為0.4和0.5的得分可知,雖然gamma值為0.5的模型精準(zhǔn)率高,但同時(shí)產(chǎn)生的大誤差數(shù)量也多,所以在權(quán)衡比較z得分后,gamma值為0.4時(shí)的模型準(zhǔn)確率更高,相比之下更優(yōu).
若取附件數(shù)據(jù)內(nèi)不同品質(zhì)的紅酒的各項(xiàng)理化指標(biāo)的平均值進(jìn)行SVM模型構(gòu)建,再次進(jìn)行預(yù)測(cè).結(jié)果顯示,準(zhǔn)確率能夠保持在較高水平,數(shù)值為85.7%.同時(shí)其中錯(cuò)誤估計(jì)的誤差不大于1,對(duì)紅酒品質(zhì)錯(cuò)誤判斷也只會(huì)錯(cuò)判至相鄰的品質(zhì),不會(huì)造成過(guò)分誤差及損失,能夠在極大程度上避免產(chǎn)生以次充好、高品質(zhì)被錯(cuò)判成差品質(zhì)而導(dǎo)致的欺騙顧客、成本浪費(fèi)的情況.對(duì)紅酒企業(yè)而言,這對(duì)營(yíng)造企業(yè)形象、獲取經(jīng)濟(jì)利益也具有現(xiàn)實(shí)意義.
基于SVM模型解決精準(zhǔn)紅酒品質(zhì)分類問(wèn)題的模型,可以進(jìn)行拓展推廣.本研究將改進(jìn)的SVM模型用以解決分類問(wèn)題,在原有的基礎(chǔ)上顯著提高分類準(zhǔn)確率,對(duì)各大企業(yè)提高商品品質(zhì)、減少品質(zhì)錯(cuò)評(píng)誤差、提高企業(yè)競(jìng)爭(zhēng)力上有很大的現(xiàn)實(shí)意義.同時(shí),解決如何精準(zhǔn)預(yù)測(cè)不同商品品質(zhì)鑒定的問(wèn)題在節(jié)約成本、調(diào)高效率上具有顯著意義.
此外,本研究將遞歸刪除法、深層次回歸分析及單因素方差分析相結(jié)合,構(gòu)建作用效力挖掘模型,以此解決不同變量間作用效力的描繪排序.該模型針對(duì)經(jīng)濟(jì)、科技、農(nóng)業(yè)、醫(yī)學(xué)、環(huán)境乃至社會(huì)發(fā)展等方面的影響因素相關(guān)性分析上具有廣泛的應(yīng)用,如研究地區(qū)旅游經(jīng)濟(jì)的影響因素效力作用等問(wèn)題.