葡萄酒差異性評價和可信度問題研究分析

2021-10-25 12:56:58周雪婷劉禹辰

科技信息·學(xué)術(shù)版 2021年19期

周雪婷劉禹辰

摘要：葡萄酒的之間的差異性有很多判別方法，本文比較兩組評酒員的評價結(jié)果有無顯著性差異，并建立合理的評價模型來判斷兩組結(jié)果在可信度方面的優(yōu)劣。選取適用于小樣本的Shapiro-wilk檢驗、直方圖、正態(tài)Q-Q圖進行正態(tài)分布驗證，發(fā)現(xiàn)四組全部符合正態(tài)分布;采用T檢驗，檢查兩組評分均值是否存在顯著性差異，通過比較p值與標準差，來評定可信度高的組別。

關(guān)鍵詞：Shapiro-wilk檢驗;T檢驗;多元統(tǒng)計分析;葡萄酒;差異評價

一、數(shù)據(jù)預(yù)處理

由于給出的數(shù)據(jù)是自行測得的，可能會存在操作失誤進而測錯或者漏測、少測的情況發(fā)生。經(jīng)過對數(shù)據(jù)的瀏覽分析，發(fā)現(xiàn)有些數(shù)據(jù)存在缺失，并且部分數(shù)據(jù)存在異常。因此，需要進行異常數(shù)據(jù)的修正和缺失數(shù)據(jù)的增添，這樣才能確保實驗數(shù)據(jù)和實驗結(jié)果的正確性。

評酒員7對樣品3口感持久性評分的數(shù)據(jù)，相較于相鄰各評酒員的評分發(fā)生了明顯的突變現(xiàn)象。這種數(shù)據(jù)異?？赡軐?shù)據(jù)分析的結(jié)果產(chǎn)生不利影響。因此，采用求取平均值的方法進行修補。

同時，觀察各組紅葡萄酒各樣品得分數(shù)據(jù)散點圖，可以直觀的看到評酒員4對樣品20的評分數(shù)據(jù)中，沒有色調(diào)特征的數(shù)據(jù)，所以存在數(shù)據(jù)缺失情況。這種數(shù)據(jù)缺失可能會對后續(xù)模型建立、問題分析產(chǎn)生不利影響。因此，采用求取平均值的方法進行修補。

修改后的數(shù)據(jù)，可以很好的滿足后續(xù)實驗的需求，極大增高實驗結(jié)果的穩(wěn)定性。

二、評分的正態(tài)分布檢驗

對兩組評酒員評分的差異性評價分析要求樣本數(shù)據(jù)滿足正態(tài)分布。因此，我們首先對樣本數(shù)據(jù)的正態(tài)分布進行檢驗。此處我們對兩組評分的均值數(shù)據(jù)進行檢驗，查看是否符合正態(tài)分布。

主要步驟如下所示：

Step1：統(tǒng)計每個酒樣品評酒員的評分均值

首先，計算每一個酒樣品的10名評酒員的評分均值，均值的公式如下所示：

（1）

其中，為缺失值，m為酒樣品的組號。

Step2：進行Shapiro-wilk檢驗

由題意得，第一組紅葡萄酒、第一組白葡萄酒、第二組紅葡萄和第二組白葡萄樣品的酒樣品數(shù)目分別為27、28、27、28。所以，采用適用于小范圍的Shapiro-wilk檢驗對樣本進行檢驗，并繪制Q-Q圖。

假設(shè)H0表示該組均值服從正態(tài)分布，H1表示該組均值不服從正態(tài)分布。

使用SPSS軟件，選取置信水平為95%，對四組數(shù)據(jù)進行Shapiro-wilk檢驗。以第一組白葡萄酒為例，Shapiro-wilk檢驗、直方圖和Q-Q圖結(jié)果如表1和圖1、2所示。

經(jīng)測量，p = 0.824 > 0.05，則不能拒絕H0假設(shè)，即可以認為第一組白葡萄酒均值服從正態(tài)分布。

觀察圖1，發(fā)現(xiàn)第一組白葡萄酒的均值可以近似的看成正態(tài)分布。觀察圖5，發(fā)現(xiàn)均值點呈直線散列分布，即可以近似看成一條直線，即該組均值符合正態(tài)分布。

綜上所述，經(jīng)過Shapiro-wilk檢驗、直方圖和Q-Q圖的三重驗證，可以近似的認為第一組白葡萄酒的評分均值符合正態(tài)分布。經(jīng)測量，第一組紅葡萄酒、第二組紅（白）葡萄樣品評分均值也符合正態(tài)分布。

三、顯著性檢驗與可信度評價

經(jīng)Shapiro-wilk檢驗、直方圖和Q-Q圖驗證，得第一組、第二組的紅、白葡萄酒評分均值情況服從正態(tài)分布。同時，為了說明評酒員評分的科學(xué)性以及兩組評分的可信度，我們檢查兩組給出的評分均值是否有顯著性差異，即對數(shù)據(jù)進行顯著性檢驗。

3.1 T檢驗?zāi)Ｐ偷慕?/p>

T檢驗是用于小樣本，總體標準差σ未知的正態(tài)分布總體的兩個平均值差異程度的檢驗方法。T分布理論來推斷差異發(fā)生的概率，從而判定兩個平均數(shù)的差異是否顯著。因此，可以采用T檢驗來判定兩個組別的紅、白葡萄酒的評分均值是否存在顯著差異。

T檢驗的基本理論如下所示：

Step1：進行假設(shè)

設(shè) X1，X2，…，Xn1是來自總體N（ μ1，σ12 ）的第一組酒樣品評分均值，Y1，Y2，…，Yn2是來自總體 N（μ2，σ22）的第二組酒樣品評分均值，且兩組酒樣品的評分均值相互獨立。為檢驗兩個總體的均值是否有顯著差異，給出假設(shè)：

3.2 T檢驗的進行

3.2.1 紅葡萄可信度的評定

使用SPSS軟件進行獨立樣本的T檢驗，得到T檢驗分析結(jié)果如表2、表3所示：

分析表2、表3可知：

萊文方差等同性檢驗結(jié)果為 F = 2.245，顯著性概率為0.140>5%，因此，接收假設(shè)H0，認為兩組評酒員對酒樣品的評價結(jié)果無顯著性關(guān)系。

第一組數(shù)據(jù)的標準差6.76255>第二組的標準差3.97799，標準誤差平均值第一組1.30145>第二組0.76556，因此，第二組的評分更加穩(wěn)定，數(shù)據(jù)的波動小。

因此，針對紅葡萄酒而言，可認為第二組的評價結(jié)果更可信。

3.2.2 白葡萄可信度的評定

使用SPSS軟件進行獨立樣本的T檢驗，得到的T檢驗分析結(jié)果如表4、表5所示：

分析表4、表5可知：

萊文方差等同性檢驗結(jié)果為 F = 5.044，顯著性概率為 0.044 <5%，因此，接收假設(shè)H1，認為兩組評酒員對酒樣品的評價結(jié)果有顯著性關(guān)系。

可以看出第一組數(shù)據(jù)的標準差5.20123>第二組的標準差3.17094，標準誤差平均值第一組0.98294>第二組0.59925，因此，第二組的評分更加穩(wěn)定，數(shù)據(jù)的波動小。

因此，針對白葡萄酒而言，可認為第二組的評價結(jié)果更可信。

綜上，兩組評酒員對于紅葡萄酒評價沒有顯著差異，對白葡萄酒評價有顯著差異，第二組的結(jié)果更可信。

四、綜合評價

葡萄酒的之間的差異性有很多判別方法，本文比較兩組評酒員的評價結(jié)果有無顯著性差異，并建立合理的評價模型來判斷兩組結(jié)果在可信度方面的優(yōu)劣。首先，進行數(shù)據(jù)預(yù)處理，完成異常數(shù)據(jù)的修改和缺失數(shù)據(jù)的增添;然后，選取適用于小樣本的Shapiro-wilk檢驗、直方圖、正態(tài)Q-Q圖進行正態(tài)分布驗證，發(fā)現(xiàn)四組全部符合正態(tài)分布;最后，采用T檢驗，檢查兩組評分均值是否存在顯著性差異，通過比較p值與標準差，來評定可信度高的組別。實驗發(fā)現(xiàn)兩組評酒員對于紅葡萄酒的評價沒有顯著性差異，對白葡萄酒的評價存在顯著性差異，可第二組的標準差及標準誤差平均值均小于第一組，因此，認為第二組更加可信。

參考文獻：

[1]李猛.紅葡萄酒品質(zhì)特點及鑒別方法分析[J].中國果菜，2020，40（09）：65-68.

[2]田偉業(yè)，楊和財，張軍翔，李甲貴，房玉林，陶永勝.中外葡萄酒產(chǎn)品等級分級評價及啟示[J].中國釀造，2020，39（10）：220-224.

[3]陳虹瑤，楊易，季俊霖，徐紹榮，楊曉杰，潘立臣.基于AHP的葡萄酒產(chǎn)業(yè)發(fā)展影響因素評價[J].釀酒科技，2020（07）：124-128.

第一作者：周雪婷女漢共青團員本科河南省鄭州人 ?河南大學(xué)金融數(shù)學(xué)專業(yè) 方向：用數(shù)學(xué)方法與思維解決經(jīng)濟問題。

第二作者：作者簡介：劉禹辰（2001—），女，漢，河南省鄭州市人，學(xué)生，工學(xué)本科，河南師范大學(xué)計算機與信息工程學(xué)院，研究方向：數(shù)據(jù)分析和數(shù)據(jù)挖掘。