周雪婷 劉禹辰
摘要:葡萄酒的之間的差異性有很多判別方法,本文比較兩組評酒員的評價結(jié)果有無顯著性差異,并建立合理的評價模型來判斷兩組結(jié)果在可信度方面的優(yōu)劣。選取適用于小樣本的Shapiro-wilk檢驗、直方圖、正態(tài)Q-Q圖進行正態(tài)分布驗證,發(fā)現(xiàn)四組全部符合正態(tài)分布;采用T檢驗,檢查兩組評分均值是否存在顯著性差異,通過比較p值與標準差,來評定可信度高的組別。
關(guān)鍵詞:Shapiro-wilk檢驗;T檢驗;多元統(tǒng)計分析;葡萄酒;差異評價
一、數(shù)據(jù)預(yù)處理
由于給出的數(shù)據(jù)是自行測得的,可能會存在操作失誤進而測錯或者漏測、少測的情況發(fā)生。經(jīng)過對數(shù)據(jù)的瀏覽分析,發(fā)現(xiàn)有些數(shù)據(jù)存在缺失,并且部分數(shù)據(jù)存在異常。因此,需要進行異常數(shù)據(jù)的修正和缺失數(shù)據(jù)的增添,這樣才能確保實驗數(shù)據(jù)和實驗結(jié)果的正確性。
評酒員7對樣品3口感持久性評分的數(shù)據(jù),相較于相鄰各評酒員的評分發(fā)生了明顯的突變現(xiàn)象。這種數(shù)據(jù)異??赡軐?shù)據(jù)分析的結(jié)果產(chǎn)生不利影響。因此,采用求取平均值的方法進行修補。
同時,觀察各組紅葡萄酒各樣品得分數(shù)據(jù)散點圖,可以直觀的看到評酒員4對樣品20的評分數(shù)據(jù)中,沒有色調(diào)特征的數(shù)據(jù),所以存在數(shù)據(jù)缺失情況。這種數(shù)據(jù)缺失可能會對后續(xù)模型建立、問題分析產(chǎn)生不利影響。因此,采用求取平均值的方法進行修補。
修改后的數(shù)據(jù),可以很好的滿足后續(xù)實驗的需求,極大增高實驗結(jié)果的穩(wěn)定性。
二、評分的正態(tài)分布檢驗
對兩組評酒員評分的差異性評價分析要求樣本數(shù)據(jù)滿足正態(tài)分布。因此,我們首先對樣本數(shù)據(jù)的正態(tài)分布進行檢驗。此處我們對兩組評分的均值數(shù)據(jù)進行檢驗,查看是否符合正態(tài)分布。
主要步驟如下所示:
Step1:統(tǒng)計每個酒樣品評酒員的評分均值
首先,計算每一個酒樣品的10名評酒員的評分均值,均值的公式如下所示:
(1)
其中,為缺失值,m為酒樣品的組號。
Step2:進行Shapiro-wilk檢驗
由題意得,第一組紅葡萄酒、第一組白葡萄酒、第二組紅葡萄和第二組白葡萄樣品的酒樣品數(shù)目分別為27、28、27、28。所以,采用適用于小范圍的Shapiro-wilk檢驗對樣本進行檢驗,并繪制Q-Q圖。
假設(shè)H0表示該組均值服從正態(tài)分布,H1表示該組均值不服從正態(tài)分布。
使用SPSS軟件,選取置信水平為95%,對四組數(shù)據(jù)進行Shapiro-wilk檢驗。以第一組白葡萄酒為例,Shapiro-wilk檢驗、直方圖和Q-Q圖結(jié)果如表1和圖1、2所示。
經(jīng)測量,p = 0.824 > 0.05,則不能拒絕H0假設(shè),即可以認為第一組白葡萄酒均值服從正態(tài)分布。
觀察圖1,發(fā)現(xiàn)第一組白葡萄酒的均值可以近似的看成正態(tài)分布。觀察圖5,發(fā)現(xiàn)均值點呈直線散列分布,即可以近似看成一條直線,即該組均值符合正態(tài)分布。
綜上所述,經(jīng)過Shapiro-wilk檢驗、直方圖和Q-Q圖的三重驗證,可以近似的認為第一組白葡萄酒的評分均值符合正態(tài)分布。經(jīng)測量,第一組紅葡萄酒、第二組紅(白)葡萄樣品評分均值也符合正態(tài)分布。
三、顯著性檢驗與可信度評價
經(jīng)Shapiro-wilk檢驗、直方圖和Q-Q圖驗證,得第一組、第二組的紅、白葡萄酒評分均值情況服從正態(tài)分布。同時,為了說明評酒員評分的科學(xué)性以及兩組評分的可信度,我們檢查兩組給出的評分均值是否有顯著性差異,即對數(shù)據(jù)進行顯著性檢驗。
3.1 T檢驗?zāi)P偷慕?/p>
T檢驗是用于小樣本,總體標準差σ未知的正態(tài)分布總體的兩個平均值差異程度的檢驗方法。T分布理論來推斷差異發(fā)生的概率,從而判定兩個平均數(shù)的差異是否顯著。因此,可以采用T檢驗來判定兩個組別的紅、白葡萄酒的評分均值是否存在顯著差異。
T檢驗的基本理論如下所示:
Step1:進行假設(shè)
設(shè) X1,X2,…,Xn1是來自總體N( μ1,σ12 ) 的第一組酒樣品評分均值,Y1,Y2,…,Yn2是來自總體 N(μ2,σ22) 的第二組酒樣品評分均值,且兩組酒樣品的評分均值相互獨立。為檢驗兩個總體的均值是否有顯著差異,給出假設(shè):
3.2 T檢驗的進行
3.2.1 紅葡萄可信度的評定
使用SPSS軟件進行獨立樣本的T檢驗,得到T檢驗分析結(jié)果如表2、表3所示:
分析表2、表3可知:
萊文方差等同性檢驗結(jié)果為 F = 2.245,顯著性概率為0.140>5%,因此,接收假設(shè)H0,認為兩組評酒員對酒樣品的評價結(jié)果無顯著性關(guān)系。
第一組數(shù)據(jù)的標準差6.76255>第二組的標準差3.97799,標準誤差平均值第一組1.30145>第二組0.76556,因此,第二組的評分更加穩(wěn)定,數(shù)據(jù)的波動小。
因此,針對紅葡萄酒而言,可認為第二組的評價結(jié)果更可信。
3.2.2 白葡萄可信度的評定
使用SPSS軟件進行獨立樣本的T檢驗,得到的T檢驗分析結(jié)果如表4、表5所示:
分析表4、表5可知:
萊文方差等同性檢驗結(jié)果為 F = 5.044,顯著性概率為 0.044 <5%,因此,接收假設(shè)H1,認為兩組評酒員對酒樣品的評價結(jié)果有顯著性關(guān)系。
可以看出第一組數(shù)據(jù)的標準差5.20123>第二組的標準差3.17094,標準誤差平均值第一組0.98294>第二組0.59925,因此,第二組的評分更加穩(wěn)定,數(shù)據(jù)的波動小。
因此,針對白葡萄酒而言,可認為第二組的評價結(jié)果更可信。
綜上,兩組評酒員對于紅葡萄酒評價沒有顯著差異,對白葡萄酒評價有顯著差異,第二組的結(jié)果更可信。
四、綜合評價
葡萄酒的之間的差異性有很多判別方法,本文比較兩組評酒員的評價結(jié)果有無顯著性差異,并建立合理的評價模型來判斷兩組結(jié)果在可信度方面的優(yōu)劣。首先,進行數(shù)據(jù)預(yù)處理,完成異常數(shù)據(jù)的修改和缺失數(shù)據(jù)的增添;然后,選取適用于小樣本的Shapiro-wilk檢驗、直方圖、正態(tài)Q-Q圖進行正態(tài)分布驗證,發(fā)現(xiàn)四組全部符合正態(tài)分布;最后,采用T檢驗,檢查兩組評分均值是否存在顯著性差異,通過比較p值與標準差,來評定可信度高的組別。實驗發(fā)現(xiàn)兩組評酒員對于紅葡萄酒的評價沒有顯著性差異,對白葡萄酒的評價存在顯著性差異,可第二組的標準差及標準誤差平均值均小于第一組,因此,認為第二組更加可信。
參考文獻:
[1]李猛.紅葡萄酒品質(zhì)特點及鑒別方法分析[J].中國果菜,2020,40(09):65-68.
[2]田偉業(yè),楊和財,張軍翔,李甲貴,房玉林,陶永勝.中外葡萄酒產(chǎn)品等級分級評價及啟示[J].中國釀造,2020,39(10):220-224.
[3]陳虹瑤,楊易,季俊霖,徐紹榮,楊曉杰,潘立臣.基于AHP的葡萄酒產(chǎn)業(yè)發(fā)展影響因素評價[J].釀酒科技,2020(07):124-128.
第一作者:周雪婷 女 漢 共青團員 本科 河南省鄭州人 ?河南大學(xué)金融數(shù)學(xué)專業(yè) 方向:用數(shù)學(xué)方法與思維解決經(jīng)濟問題。
第二作者:作者簡介:劉禹辰(2001—),女,漢,河南省鄭州市人,學(xué)生,工學(xué)本科,河南師范大學(xué)計算機與信息工程學(xué)院,研究方向:數(shù)據(jù)分析和數(shù)據(jù)挖掘。