趙建國,何嘉玉,李怡婷,祝利杰
(河南師范大學,河南 新鄉(xiāng) 453000)
確定葡萄酒的質(zhì)量好壞需要有資質(zhì)的評酒員對其進行分類指標打分,最后綜合確定葡萄酒的質(zhì)量。釀酒葡萄的質(zhì)量直接決定了所釀葡萄酒的質(zhì)量,葡萄酒和釀酒葡萄中所檢測出的理化指標也在一定程度上反映了葡萄酒和葡萄的質(zhì)量。
1.1.1 正態(tài)分布檢驗
分析品酒員評分的平均值是否符合正態(tài)分布,需要繪制相應的圖表。如果正態(tài)概率圖中期望累計概率和觀測累計概率分布近似分布在斜率為1的直線上,則該數(shù)據(jù)近似或服從正態(tài)分布[1]。經(jīng)過對圖表的分析可知,兩組數(shù)據(jù)均可看作近似正態(tài)分布。
1.1.2 參數(shù)的顯著性差異
運用單因素方差分析法[2],因各組數(shù)據(jù)個數(shù)相等,稱為均衡數(shù)據(jù),所以采用處理均衡數(shù)據(jù)的用法為:p=anoval(x)進行處理。第一組與第二組紅葡萄酒p=0.117 5>α=0.05,即第一組,第二組紅葡萄酒的品嘗評分無顯著差異;白葡萄酒與此類似,得出第一組與第二組白葡萄酒p=0.022 6<α=0.05,即第一組,第二組白葡萄酒的品嘗評分有明顯差異。
1.2.1 多元線性回歸方程的建立
由主成分分析模型我們得出了5個主成分,為了利用這5個主成分建立聚類分析模型,先根據(jù)這5個理化指標建立葡萄對葡萄酒質(zhì)量的多元線性回歸模型。利用附錄程序三可以得出與F對應的概率P=0.042 5<0.05,回歸模型:
(y:葡萄酒質(zhì)量;x1:氨基酸;x2:蛋白質(zhì);x3:花色苷;x4:有機酸;x5:酚類)成立。
1.2.2 聚類分析模型的建立
我們把5個主成分經(jīng)過線性回歸可以得到一個較好的回歸模型,所以用這5個主成分的數(shù)據(jù)進行聚類,聚類得到樹型圖,橫軸為紅葡萄的樣品名,縱軸代表類間的最長距離。我們可以根據(jù)主觀判斷在中間添加一條橫線,將紅葡萄聚類成4類[3](數(shù)字代表樣品號)。
第一類:3,6,4,10,25,20,19,23
第二類:2,9,14,5,13,26
第三類:1,8,24
第四類:7,22,12,15,18,21,11,16,17,27
對每一類分別計算平均得分,結果如下:
紅葡萄第一類:71.825 等級(二);第二類:72.950等級(一):第三類:68.533 等級(四);第四類:68.600等級(三)。
計算每個等級紅葡萄各理化指標均值,結果如表1所示。
表1 每個等級紅葡萄各理化指標均值
等級一優(yōu)于其他等級的主要原因很可能是因為葡萄的蛋白質(zhì)的含量遠大于其他組。同理,之后進行線性回歸,可以得出與F對應的概率P=0.034 11<0.05,回歸結果為:
(y:白葡萄酒質(zhì)量;x1:氨基酸;x2:蛋白質(zhì);x3:花色苷;x4:有機酸;x5:酚類;x6:醇類;x7:還原糖)成立。所以,我們可以利用這7個主成分建立聚類模型,將白葡萄聚類成4類。
第一類:6,27,13,17
第二類:4,8,16,9,19,7
第三類:1,11,15,18,24,2,21
第四類:3,28,5,20,22,10,14,25,12,23,26
對每一類分別計算平均得分,結果如下:
白葡萄第一類(76.675),第二類(74.583),第三類(76.500),第四類(77.564)。
計算每個等級紅葡萄各理化指標均值,等級一優(yōu)于其他等級的主要原因很可能是因為葡萄的氨基酸和還原糖的含量遠大于其他組[4]。
1.2.3 求解結果
通過最后的數(shù)據(jù)分析,假設上述聚類分析是合理的,可以看出,品質(zhì)差的葡萄不能釀出好的葡萄酒,品質(zhì)好的葡萄并不一定能釀出質(zhì)量高的葡萄酒,可能會涉及許多其他的因素,如釀造的過程,工藝水平還有葡萄酒本身的理化指標;可以得出與題設一樣的結論,釀酒葡萄的好壞與所釀葡萄酒的質(zhì)量有直接的關系。
1.3.1 相關系數(shù)模型
相關系數(shù)模型中的相關系數(shù)是判斷相關程度的指標,相關系數(shù)用r表示,|r|越大,相關程度越大。相關系數(shù)的計算方法如下:
相關系數(shù)模型針對葡萄和葡萄酒相同的理化指標進行分析,經(jīng)匯總發(fā)現(xiàn)紅葡萄與紅葡萄酒有9個相同的理化指標,白葡萄與白葡萄酒有8個相同的理化指標,由于每個指標都有不同的權重和性質(zhì),所以首先對各個原始數(shù)據(jù)進行標準化處理。相關系數(shù)如表2所示。
由表2可知,紅葡萄酒中,花色苷、單寧、總酚、酒總黃酮、1,1-二苯基-2-三硝基苯肼(1,1-diphenyl-2-picrylhydrazyl,DPPH)相關性比較強。同理,可得到白葡萄酒中,單寧、總酚、酒總黃酮的相關性比較強。
表2 紅葡萄酒各指標相關系數(shù)
1.3.2 逐步回歸模型
逐步回歸過程使用sterwise函數(shù)[5]分別對紅葡萄酒和白葡萄酒中每一個理化指標與紅葡萄和白葡萄的每一個理化指標的相關性進行分析 ,根據(jù)分析結果,只有x4,x6是方程中的變量,其他的都從模型中移去,所以表達式為:
1.4.1 釀酒葡萄和葡萄酒的理化指標對葡萄酒質(zhì)量的影響
葡萄酒的每個指標都受釀酒葡萄中某些理化指標的影響[6],例如對于紅葡萄酒的花色苷指標受紅葡萄的花色苷和出汁率兩個指標的綜合影響,函數(shù)為:
1.4.2 釀酒葡萄和葡萄酒的理化指標對葡萄酒質(zhì)量的影響
篩選出來的理化指標應該與相應的葡萄酒質(zhì)量存在較大的關聯(lián)度,由問題三的解答中可以知道紅葡萄酒與花色苷、單寧、總酚、酒總黃酮、DPPH相關性等理化指標相關性較強,白葡萄酒與單寧、總酚、酒總黃酮的理化指標相關性比較強。
(1)對于問題一建立的模型不僅適合于解決評分的差異性顯著判斷,還可以用于社會科學、行為科學、生物科學和數(shù)理科學等領域。
(2)主成分分析模型中的降維技術也可用到多種多影響成分的分析中去,另外,聚類模型也可以用于生活中大部分的分級問題。
(3)對于問題三建立的相關系數(shù)模型和逐步回歸模型,可以推廣到其他領域,如生物科學、數(shù)理科學等,分析兩個變量之間的關系。
[參考文獻]
[1]楊希冬.實驗數(shù)據(jù)異常值的剔除方法[J].唐山師范學院學報,1998(5):56-57.
[2]劉榮,馮國生,丁維岱.SAS統(tǒng)計分析與應用[M].北京:機械工業(yè)出版社,2011.
[3]聶繼云,李明強,張桂芳,等.白梨品質(zhì)評價指標的聚類分析[J].中國果樹,2000(2):16-17.
[4]百度百科.葡萄酒[EB/OL].(2010-09-09)[2018-04-08].http://baike.baidu.com/view/23275.htm.
[5]謝中華.MATLAB統(tǒng)計分析與應用:40個案例分析[M].北京:北京航空航天大學出版社,2010.
[6]韓中庚.數(shù)學建模方法及其應用[M].北京:高等教育出版社,2009.