王允宏 胡傳鵬
摘 要 貝葉斯統(tǒng)計應(yīng)用于假設(shè)檢驗的方法——貝葉斯因子——在心理學(xué)研究中的應(yīng)用日漸增加。貝葉斯因子能分別量化所支持的相應(yīng)假設(shè)或模型的證據(jù),進而根據(jù)其數(shù)值大小做出當(dāng)前數(shù)據(jù)更支持哪種假設(shè)或模型的判斷。然而,國內(nèi)尚缺乏對方差分析的貝葉斯因子的原理與應(yīng)用的介紹。基于此,本文首先介紹貝葉斯方差分析的基本思路及計算原理,并結(jié)合實例數(shù)據(jù),展示如何在JASP中對五種常用的心理學(xué)實驗設(shè)計(單因素組間設(shè)計、單因素組內(nèi)設(shè)計、二因素組間設(shè)計、二因素組內(nèi)設(shè)計和二因素混合設(shè)計)進行貝葉斯方差分析及如何匯報和解讀結(jié)果。貝葉斯方差分析提供了一個能有效替代傳統(tǒng)方差分析的方案,是研究者進行統(tǒng)計推斷的有力工具。
關(guān)鍵詞 貝葉斯統(tǒng)計;貝葉斯因子;方差分析;JASP
分類號 B841
DOI:10.16842/j.cnki.issn2095-5588.2023.09.002
1 引言
方差分析適用于評估分類型預(yù)測變量(自變量)對連續(xù)型結(jié)果變量(因變量)的影響,是實驗心理學(xué)中常用的統(tǒng)計方法(Fritz et al., 2012)。在零假設(shè)顯著性檢驗框架下,方差分析得到的結(jié)果會根據(jù)p值進行統(tǒng)計顯著性推斷:當(dāng)設(shè)定了p值閾限后,研究者往往會根據(jù)p值,以全或無的方式推斷結(jié)果的統(tǒng)計顯著性。例如,如果p<0.05,就說明結(jié)果具有統(tǒng)計顯著性,應(yīng)當(dāng)拒絕零假設(shè)(H0);如果p>0.05,就說明結(jié)果不具有統(tǒng)計顯著性。這種二分的觀點受到了廣泛質(zhì)疑,并且這也是心理學(xué)可重復(fù)性危機的來源之一(Open Science Collaboration, 2015; Schmalz et al., 2021)。因此,貝葉斯統(tǒng)計作為一種替代零假設(shè)顯著性檢驗的方法,逐漸受到了研究者的關(guān)注(Wagenmakers et al., 2011)。
貝葉斯統(tǒng)計的基本思想是隨著觀測數(shù)據(jù)的積累,信念(知識經(jīng)驗)不斷更新的過程(Faulkenberry et al., 2020; van den Bergh et al., 2020; Wagenmakers, Marsman, et al., 2018)。研究者在進行假設(shè)檢驗前可能會有多個相互競爭的假設(shè),信念即對各個假設(shè)為真的可能性的估計。當(dāng)某個假設(shè)能很好地預(yù)測數(shù)據(jù)時,與該假設(shè)一致的信念會得到增強;反之,當(dāng)某假設(shè)對觀測數(shù)據(jù)的預(yù)測性很差時,信念就會減弱。因此通過貝葉斯統(tǒng)計,研究者可以分別得到支持H1和H0的證據(jù),進而量化兩種假設(shè)相對出現(xiàn)的可能性,即通過模型比較的方式得到貝葉斯因子(Bayes factors, BF; 胡傳鵬等, 2018; 李貴玉, 顧昕, 2021; 許岳培等, 2022)。雖然貝葉斯統(tǒng)計具有量化對H1和H0的支持程度、不依賴抽樣計劃等優(yōu)勢(Grünwald et al., 2020; Hendriksen et al., 2021; Schmalz et al., 2021; Wagenmakers, Marsman, et al., 2018),但相比頻率主義方差分析,貝葉斯方差分析的應(yīng)用有限。隨著具有圖形界面的軟件(如JASP)的開發(fā),BF的使用變得更加簡便,因此也開始被廣泛應(yīng)用于心理學(xué)的各個領(lǐng)域(孟迎芳等, 2021; Brydges & Gaeta, 2019; Derks et al., 2021; Rouder et al., 2017; Wagenmakers, Love, et al., 2018)。先前亦有中文文獻介紹了JASP,例如胡傳鵬等(2018)文章中的3.1部分。如果需要了解更多關(guān)于零假設(shè)顯著性檢驗與貝葉斯因子的內(nèi)容,可參考前人研究(Kruschke & Liddell, 2018; Schmalz et al., 2021; Tendeiro & Kiers, 2019)。
然而,在先前關(guān)于貝葉斯因子的中文介紹中,多以相關(guān)分析和t檢驗作為例子(胡傳鵬等, 2018; 吳凡等, 2018)。雖然容易理解,但無法適用于方差分析的情況。 一個主要原因在于,貝葉斯方差分析以貝葉斯的線性模型為基礎(chǔ)(Liang et al., 2008; Rouder et al., 2012)。雖然也可以使用貝葉斯廣義線性模型,但當(dāng)前版本的JASP并不能進行貝葉斯廣義線性模型的相關(guān)計算。貝葉斯方差分析通過多個不同的線性模型相互之間的比較獲得貝葉斯因子值。不同模型可能涉及不同的模型構(gòu)建方式,這就導(dǎo)致相比于貝葉斯t檢驗,模型比較的過程更為復(fù)雜。此外,隨著自變量的增加,模型比較及之后產(chǎn)生的模型選擇不確定性的問題會對研究者匯報和解釋結(jié)果造成困擾。因此,如何解決這種情況下的貝葉斯因子計算與解讀,也需要額外的知識。為解決研究者在使用貝葉斯方差分析時可能出現(xiàn)的上述問題,本文將介紹貝葉斯線性模型及模型比較的基礎(chǔ)知識,并介紹貝葉斯模型平均法,該方法可以解決自變量較多時如何計算貝葉斯因子這一問題。為方便沒有代碼基礎(chǔ)的研究者執(zhí)行數(shù)據(jù)分析,本文使用了JASP這款開源、免費和具有圖形界面的統(tǒng)計軟件(JASP team, 2022)。如果讀者僅關(guān)注如何使用JASP來進行貝葉斯方差分析,以及如何解釋和匯報輸出的結(jié)果,可跳過2.2小節(jié)。
2 基本概念
2.1 貝葉斯因子
貝葉斯因子是一種模型比較和選擇的方法,反映了對某一模型支持程度的量化(Schmalz et al., 2021)。它等價于觀測數(shù)據(jù)中兩個模型的邊際似然之比(Heck et al., 2022)。在應(yīng)用于假設(shè)檢驗中時,假設(shè)之間的比較可視作模型之間的比較。因此,貝葉斯因子可用來衡量對H1和H0的支持程度。具體而言,將H0指定為零模型M0并將H1指定為備擇模型M1。BF10表示相對于M0,觀測數(shù)據(jù)對M1的支持程度。例如,BF10=12表示觀測數(shù)據(jù)支持H1為真的程度是支持H0為真的程度的12倍。如表1所示,參考先前研究者對貝葉斯因子數(shù)值大小所代表意義的劃分(胡傳鵬等, 2018; Jarosz & Wiley, 2014; Jeffreys, 1961; Wetzels et al., 2011),BF10=12可解釋為觀測數(shù)據(jù)提供了較強的證據(jù)支持H1為真。反之,BF01=12可解釋為觀測數(shù)據(jù)提供了較強的證據(jù)支持H0為真。
貝葉斯因子計算的一般公式為:
其中p(data|M1),表示邊際似然,即當(dāng)前數(shù)據(jù)在模型M1中出現(xiàn)的可能性,p(data|M0)同理。因此,BF10反映了兩個模型的邊際似然之比。關(guān)于上式的進一步展開形式,見在線補充材料(詳見https://osf.io/7caju/)A。
2.2 貝葉斯方差分析中線性模型的比較
要理解貝葉斯因子在方差分析中的應(yīng)用,首先需要理解方差分析與線性模型的關(guān)系,原因在于貝葉斯方差分析中貝葉斯因子值的計算是基于不同線性模型之間的比較。作為線性模型的一種特殊形式,方差分析涉及的自變量是分類變量,因變量是連續(xù)變量,且誤差項需要滿足正態(tài)分布。它的特殊之處在于:由于自變量為分類變量(例如,性別、不同實驗條件等),其設(shè)計矩陣中包含的元素均為0或1。線性模型的一般形式為:
Yij=μ+β1Xil+...+βj Xij+∈ij(i=1,2,...n) (2)
其中Yij,表示因變量,即j組個體i的數(shù)據(jù);Xij表示自變量,取值為0或1,代表個體i屬于組j;βj表示自變量的效應(yīng),即某個實驗處理的效應(yīng);μ表示截距項;∈ij表示隨機誤差,即因變量無法被自變量解釋的部分。
假設(shè)存在一個兩水平的自變量A,為了使參數(shù)不受計量單位的影響,需要將參數(shù)進行標準化(σ代表標準誤),即轉(zhuǎn)化為效應(yīng)量。
那么計算A存在效應(yīng)的線性模型可寫成:
? ? ? ? ? ? ? ? H1∶Y=μ+σθX+∈? ? ? ? ? ? ? ? ? ?(3)
不包括A效應(yīng)的零模型寫作:
? ? ? ? ? ? ? ? ? H0∶Y=μ+∈ ? ? ? ? ? ? ? ? ? ? ?(4)
如果研究者關(guān)注A的主效應(yīng),在傳統(tǒng)的方差分析中,可以通過方差分解的方式計算F值和p值,再在零假設(shè)顯著性檢驗框架下進行統(tǒng)計推斷。在貝葉斯因子分析中,研究者是計算當(dāng)前數(shù)據(jù)出現(xiàn)在H0和H1這兩個模型下可能性的比例。也就是說,研究者將認為A主效應(yīng)存在的H1指定為M1,認為A主效應(yīng)不存在的H0指定為M0,通過模型比較的方式計算出數(shù)據(jù)支持兩個模型可能性的比值,得到BF10或BF01。
以上描述的是僅有一個自變量的情況。當(dāng)存在兩個自變量Xa和Xb時,潛在線性模型的數(shù)量增加。從完全不包括任何自變量效應(yīng)的模型(零模型)到包括全部自變量效應(yīng)的模型(兩個自變量的主效應(yīng)及其交互作用,即全模型),共包括五個模型(模型的構(gòu)建見在線補充材料B)。如果以零模型作為H0的模型,則與傳統(tǒng)的方差分析僅有兩個主效應(yīng)與一個交互作用的F值(及p值)不同,貝葉斯因子分析中會報告四個貝葉斯因子值。這是因為僅包括兩個主效應(yīng)但無交互作用的模型(見線上補充材料B中的公式12)也會與零模型進行比較從而得到貝葉斯因子值。并且,包括交互作用的模型也同時包括兩個主效應(yīng),而非只包括交互作用。此外,如果研究者想計算交互作用所對應(yīng)的貝葉斯因子值,可以應(yīng)用貝葉斯因子的傳遞性(Srinivasan & Vijayaragunathan, 2021; Wagenmakers et al., 2010)。具體計算原理見線上補充材料C。
由此可見,隨著自變量個數(shù)的增加,模型的數(shù)量也會迅速增加。這就導(dǎo)致研究者很難單獨考慮每個模型的效應(yīng)。同時,模型兩兩比較產(chǎn)生的貝葉斯因子數(shù)量也隨之增加,這會對研究者解釋結(jié)果造成困擾。當(dāng)H1選擇不同的模型時,與H0對應(yīng)的原模型比較產(chǎn)生可能會產(chǎn)生幾個數(shù)值相似的BF10時(即有相同程度的證據(jù)支持幾個模型作為H1),研究者該如何選擇合適的模型作為H1進而得出結(jié)論?當(dāng)實驗中存在2個自變量時,可供H1選擇的備擇模型有4個;當(dāng)存在3個自變量時,可供選擇的備擇模型就增加到了18個。由此可見,傳統(tǒng)方差分析得出的F值和p值的數(shù)量少于貝葉斯因子的數(shù)量。這使得研究者在模型選擇上出現(xiàn)困難。研究者甚至可能會為了追求貝葉斯因子值最大化而選取特定的模型,從而忽略模型選擇的不確定性。據(jù)此,研究者提出使用貝葉斯模型平均的方法來解決這一問題(Heck & Bockting, 2021; Heck et al., 2022; Hinne et al., 2020; van den Bergh et al., 2020; Wagenmakers, Love, et al., 2018)。關(guān)于BMA的詳細信息見在線補充材料D。
2.3 JASP中進行貝葉斯方差分析
本文使用的JASP版本為0.16.3(JASP Team, 2022),示例數(shù)據(jù)及分析結(jié)果可在OSF上獲取(https://osf.io/7caju/)。JASP是一個開發(fā)中的軟件,開發(fā)者不斷地改進該軟件并且修復(fù)現(xiàn)有版本中的問題。因此,我們推薦讀者使用最新版的JASP而非一定要使用此版本。JASP使用R中的BayesFactor包(Morey & Rouder, 2022)計算貝葉斯因子。在進行貝葉斯方差分析前,研究者需要進行的基本步驟是:指定自變量和因變量、選擇輸出的貝葉斯因子形式。如果是多自變量的實驗設(shè)計,還需設(shè)置BFincl的輸出形式。
不同于傳統(tǒng)方差分析的輸出指標(F,p,η2等),在JASP中進行貝葉斯方差分析后,會輸出如下指標(見圖 2):Model Comparison為模型比較的結(jié)果匯總表;P(M)表示獲得觀測數(shù)據(jù)前模型的先驗概率,在默認的Uniform分布中每個模型的先驗概率相同,即如果有m個模型,每個模型的先驗概率就為1/m;P(M|data)表示獲得數(shù)據(jù)后模型的后驗概率;BFM表示當(dāng)前模型從先驗到后驗的變化:
誤差百分數(shù)表示結(jié)果的變異系數(shù)。由于在計算過程中使用了馬爾科夫鏈蒙特卡洛(MCMC)采樣,因此每重新運行一次分析,結(jié)果都可能出現(xiàn)細微的差異。因此,按照本文步驟,讀者所做的貝葉斯方差分析結(jié)果可能會與本文得到的結(jié)果有細微不同。結(jié)果的波動可用誤差百分數(shù)來量化,誤差百分數(shù)越高說明結(jié)果的波動性越高。van Doorn等(2021)推薦誤差百分數(shù)小于20%時通常是可以接受的。
3 使用JASP進行貝葉斯方差分析實例展示
3.1 單因素方差分析
示例數(shù)據(jù)。使用疼痛閾限(Pain Thresholds)數(shù)據(jù)作為示例,該數(shù)據(jù)來自單因素組間設(shè)計的實驗。自變量為發(fā)色(Hair Color),包括四個水平(見圖1):深色黑發(fā)(Dark Brunette)、深色金發(fā)(Dark Blond)、淺色金發(fā)(Light Blond)、淺色黑發(fā)(Light Brunette)。因變量為疼痛容忍度(Pain Tolerance)。因此在本例中,H0為發(fā)色對疼痛閾限無影響,H1為發(fā)色對疼痛閾限有影響。例如,淺色金發(fā)個體對疼痛的容忍度高于淺色黑發(fā)個體。
操作步驟。首先在JASP中打開數(shù)據(jù)(Open - Data Library - ANOVA - Pain Thresholds),然后在ANOVA面板中選擇“Bayesian AVOVA”。 之后需要進行以下步驟(見圖 2):第一,將疼痛容忍度作為因變量放入“Dependent Variable”中,將發(fā)色作為自變量放入“Fixed Factors”中;第二,在“Bayes Factor”選項框中選擇要輸出的貝葉斯因子形式;第三,在“order”選項框中選擇模型比較的順序,即確定模型是與“null model”(零模型)還是與“best model”(最優(yōu)模型)進行比較。如果選擇“compare to best model”(與最優(yōu)模型比較),那么“Model Comparison”中呈現(xiàn)結(jié)果的第一行就代表最優(yōu)模型與其自身比較的結(jié)果。反之,如果選擇“compare to null model”(與零模型比較),就代表零模型與其自身比較的結(jié)果。因此“order”的選擇對結(jié)果沒有實際影響;第四,由于該示例數(shù)據(jù)中的自變量發(fā)色是一個四水平組間變量,因此需要通過事后檢驗來觀測差異究竟出現(xiàn)在哪兩個水平之間。然而,事后檢驗本身是一個探索性的分析過程。因此,本文建議研究者在數(shù)據(jù)分析前做出明確假設(shè)。
貝葉斯方差分析中的事后檢驗無需進行校正(Gelman et al., 2012)。不同于依賴預(yù)設(shè)顯著性水平以及p值的零假設(shè)顯著性檢驗,貝葉斯方差分析關(guān)注參數(shù)或模型的后驗分布及觀測數(shù)據(jù)對不同假設(shè)的支持程度。貝葉斯方差分析提供了完整的后驗分布,使得研究者可以直接比較不同模型的后驗分布。并且,貝葉斯方差分析允許研究者設(shè)定不同的先驗分布形式來反映對不同假設(shè)的先驗信念。貝葉斯因子的本質(zhì)是兩個模型邊際似然的比值,量化了對模型的相對支持程度,直觀地對模型進行了比較。綜上,在貝葉斯方差分析中無需使用多重比較校正。
結(jié)果匯報。貝葉斯方差分析的結(jié)果顯示:參考先前研究者對貝葉斯因子數(shù)值大小所代表意義的劃分(Jarosz & Wiley, 2014; Jeffreys, 1961; Wetzels et al., 2011),貝葉斯因子BFincl=11.97,說明在當(dāng)前數(shù)據(jù)中H1出現(xiàn)的可能性是H0的11.97倍。這是較強的證據(jù)支持了H1,即不同發(fā)色的個體有著不同的疼痛容忍度。通過事后檢驗發(fā)現(xiàn),當(dāng)前數(shù)據(jù)中出現(xiàn)淺色金發(fā)個體對疼痛的容忍度高于深色黑發(fā)個體的可能性是二者無差異的10.88倍(BF10=10.88,較強證據(jù)支持H1);淺色金發(fā)個體對疼痛的容忍度高于淺色黑發(fā)個體(BF10=4.66,中等程度證據(jù)支持H1);深色金發(fā)個體對疼痛的容忍度高于深色黑發(fā)個體(BF10=2.18,較弱證據(jù)支持H1);其余條件兩兩比較之間無證據(jù)支持存在差異或者不存在差異(BF10均小于1.05)。
3.2 二因素方差分析
示例數(shù)據(jù)。使用心率(Heart Rate)數(shù)據(jù)作為示例,該數(shù)據(jù)來自2×2組間設(shè)計的實驗。自變量是性別(Gender)和組別(Group),因變量為運動六分鐘后的心率(見圖4)。因此在本例中,H0為不同的性別和組別對心率的影響無顯著差異,H1為性別和組別不僅存在主效應(yīng),且二者的交互作用也存在。
操作步驟。首先在JASP中打開數(shù)據(jù)(Open - Data Library - ANOVA - Heart Rate),然后在ANOVA面板中選擇“Bayesian AVOVA”。之后需要進行以下步驟:第一,將心率作為因變量放入“Dependent Variable”中,將性別和組別作為自變量放入“Fixed Factors”中;第二,在“Bayes Factor”選項框中選擇BF10作為要輸出的貝葉斯因子的形式;第三,在“order”選項框中選擇 與零模型比較;第四,在多因素實驗設(shè)計中,如果需要計算BFincl,就需要勾選“Effects”。并且選擇“Across all models”(包括所有模型的取向)和“Across matched models”(包括匹配模型的取向)方法所計算出的BFincl是不同的。本文建議采取Sebastiaan Math?t 提倡的“包括匹配模型的取向”方法計算的結(jié)果(見圖5A);第五,由于貝葉斯方差分析沒有簡單效應(yīng)分析的模塊,如果研究中需要進行進一步簡單效應(yīng)分析,可通過貝葉斯t檢驗進行簡單效應(yīng)分析。
具體而言,“Effects”的選擇會影響B(tài)Fincl的計算。在進行BFincl的計算前,首先要了解如何計算P(incl)、P(excl)、P(incl|data)和P(excl|data)。在JASP中,這四個值的計算有兩種:包括所有模型的取向和包括匹配模型的取向。兩種取向的選擇在JASP中的操作見圖5A。這兩種取向之下的計算公式有所區(qū)別,具體計算過程見在線補充材料E。
結(jié)果匯報。貝葉斯方差分析的結(jié)果顯示:參考先前研究者對貝葉斯因子數(shù)值大小所代表意義的劃分(Jarosz & Wiley, 2014; Jeffreys, 1961; Wetzels et al., 2011),當(dāng)前數(shù)據(jù)存在極強的證據(jù)支持性別主效應(yīng)(BFincl=2.99×1034)和組別主效應(yīng)(BFincl=1.11×10106)的存在。女性運動六分鐘后的心率(M=131.99,SD=22.72)高于男性(M=116.99,SD=19.84),控制組運動六分鐘后的心率(M=139.00,SD=18.95)高于跑步組(M=109.98,SD=15.53)。當(dāng)前數(shù)據(jù)存在中等程度的證據(jù)支持性別和組別間交互作用的存在(BFincl=4.38)。
分別對控制組和跑步組進行貝葉斯獨立樣本t檢驗,結(jié)果顯示:在控制組中,女性運動六分鐘后的心率高于男性(BF10=5.56×1020);在跑步組中,女性運動六分鐘的心率高于男性(BF10=5.48×1012)。
3.3 單因素重復(fù)測量方差分析
示例數(shù)據(jù)。使用來自單因素組內(nèi)設(shè)計實驗的Bush Tucker Food數(shù)據(jù)作為示例。自變量是食物種類,因變量為吃下食物后感到反胃需要的時間(秒)。數(shù)據(jù)的組織形式采用寬數(shù)據(jù),與SPSS中進行分析時相同。
操作步驟。首先在JASP中打開數(shù)據(jù)(Open - Data Library - ANOVA -Bush Tucker Food),然后在ANOVA面板中選擇“Bayesian Repeated Measures AVOVA”。之后需要進行以下步驟(見圖 6):第一,設(shè)置新的重復(fù)測量因子,為每個水平命名;第二,在“Bayes Factor”選項框中選擇BF10作為要輸出的貝葉斯因子的形式;第三,在“order”選項框中選擇與零模型比較;第四,由于該示例數(shù)據(jù)中的自變量食物種類是一個四水平組內(nèi)變量,因此需要事后檢驗來觀測差異究竟出現(xiàn)在哪兩個水平之間。
結(jié)果匯報。對結(jié)果的匯報可以參考先前對單因素方差分析的匯報形式。
3.4 二因素重復(fù)測量方差分析
3.4.1 實驗設(shè)計為組內(nèi)設(shè)計
示例數(shù)據(jù)。酒精態(tài)度(Alcohol Attitudes)采用的是3×3組內(nèi)設(shè)計。自變量是圖片效價(Imagery)和飲品種類(Drink),各有三個水平,因變量為被試在觀看圖片后對飲品的態(tài)度評分(見圖7)。
操作步驟。首先在JASP中打開數(shù)據(jù)(Open - Data Library - ANOVA - Alcohol Attitudes),然后在ANOVA面板中選擇“Bayesian Repeated Measures AVOVA”。之后需要進行以下步驟(見圖 8):第一,設(shè)置兩個重復(fù)測量因子并對不同因子的不同水平命名;第二,在“Bayes Factor”選項框中選擇BF10作為要輸出的貝葉斯因子的形式;第三,在“order”選項框中選擇與零模型比較;第四,在“Tables”選項框中勾選包括匹配模型的取向計算BFincl;第五,由于貝葉斯方差分析沒有簡單效應(yīng)分析的模塊,因此需要通過貝葉斯t檢驗進行簡單效應(yīng)分析。
結(jié)果匯報。貝葉斯方差分析的結(jié)果顯示:參考先前研究者對貝葉斯因子數(shù)值大小所代表意義的劃分(Jarosz & Wiley, 2014; Jeffreys, 1961; Wetzels et al., 2011),當(dāng)前數(shù)據(jù)存在中等程度的證據(jù)支持飲品種類主效應(yīng)(BFincl=5.01)和極強的證據(jù)支持圖片效價主效應(yīng)(BFincl=1.25×1014)的存在。事后檢驗發(fā)現(xiàn),水的態(tài)度得分低于啤酒(BF10= 69.09)和紅酒(BF10= 66.65),啤酒和紅酒的態(tài)度得分無差異(BF10= 0.46);積極圖片的態(tài)度得分高于消極圖片(BF10=2.75×1018)和中性圖片(BF10=7.00×1012),中性圖片的態(tài)度得分高于消極圖片(BF10=3.60×108)。當(dāng)前數(shù)據(jù)存在極強的證據(jù)支持圖片效價和飲品種類間交互作用的存在(BFincl=2.07×108)。
3.4.2 實驗設(shè)計為混合設(shè)計
示例數(shù)據(jù)。舉重速度采用的是2×3混合設(shè)計。自變量是抓握類型(Grip)和負重(RM),因變量為舉重速度。該數(shù)據(jù)需在https://jasp-stats.org/teaching-with-jasp/中下載。
操作步驟。首先在JASP中打開數(shù)據(jù),然后在ANOVA面板中選擇“Bayesian Repeated Measures AVOVA”。 之后需要進行以下步驟(見圖 9):第一,設(shè)置重復(fù)測量因子并對因子的不同水平進行命名,并將抓握類型放入“Between Subject Factors”中;第二,在“Bayes Factor”選項框中選擇BF10作為要輸出的貝葉斯因子的形式;第三,在“order”選項框中選擇與零模型比較;第四,在“Tables”選項框中勾選包括匹配模型的取向來計算BFincl;第五,由于貝葉斯方差分析沒有簡單效應(yīng)分析的模塊,因此需要通過貝葉斯t檢驗進行簡單效應(yīng)分析。
結(jié)果匯報。貝葉斯方差分析的結(jié)果顯示:參考先前研究者對數(shù)值大小所代表意義的劃分(Jarosz & Wiley, 2014; Jeffreys, 1961; Wetzels et al., 2011),當(dāng)前數(shù)據(jù)存在非常強的證據(jù)支持抓握類型主效應(yīng)的存在(BFincl=51.19),傳統(tǒng)抓握方式的舉重速度快于反握。當(dāng)前數(shù)據(jù)存在極強的證據(jù)支持負荷主效應(yīng)的存在(BFincl=4.79×1013)的存在。事后檢驗發(fā)現(xiàn),30%負荷的舉重速度快于50%負荷(BF10= 34.66)和70%負荷(BF10=8.74×108),50%負荷的舉重速度快于70%負荷(BF10=11777.45)。當(dāng)前數(shù)據(jù)存在極強的證據(jù)支持抓握方式和負荷間交互作用的存在(BFincl=314.08)。
4 討論
本文先介紹了貝葉斯方差分析的基本原理,特別是使用線性模型并進行模型比較的思維方式。隨后結(jié)合實驗心理學(xué)常用的五種實驗設(shè)計展示了如何在JASP中進行貝葉斯方差分析及如何匯報并解釋統(tǒng)計結(jié)果,為貝葉斯方差分析的使用提供示例。
本文主要關(guān)注如何理解貝葉斯方差分析以及如何在JASP中進行操作,因此未深入討論以下內(nèi)容。第一,先驗分布的參數(shù)設(shè)定。本文的所有示例均使用JASP的默認設(shè)定(Prior: r scale fixed effects=0.5, r scale random effects=1, r scale covariates=0.354; Model Prior: Uniform),當(dāng)研究者覺得有必要修改時,可在Additional Options中修改。由于修改這些先驗本身即對混合線性模型中先驗的修改,研究者可使用R中的brms包來構(gòu)建貝葉斯混合效應(yīng)模型(潘晚坷等, 2022),該方式也更加靈活。第二,要區(qū)分參數(shù)先驗和模型先驗,雖然本文在原理部分進行了介紹,但這仍然是容易混淆之處,需要研究者特別注意。第三,匯報貝葉斯因子時要匯報實際數(shù)值,而非簡單地與特定閾值進行比較(Schmalz et al., 2021)。例如,不推薦僅匯報BF>3,而是匯報具體數(shù)值。如果需要更全面地了解在JASP中進行貝葉斯統(tǒng)計的細節(jié),可以參考van Doorn等(2021)的文章。
van den Bergh等(2020)認為貝葉斯方差分析還存以下兩個需要注意的問題:第一,貝葉斯方差分析與頻率學(xué)派零假設(shè)顯著性檢驗存在同樣的問題,即當(dāng)模型被錯誤指定并且殘差分布是非正態(tài)分布時,結(jié)果可能出現(xiàn)偏差。該問題可通過使用不指定殘差分布的方差分析(例如,Kruskal-Wallis檢驗)或者指定殘差分布來解決(需在Stan或JAGS中進行);第二,貝葉斯因子的計算會受到模型內(nèi)參數(shù)先驗分布的影響。貝葉斯因子實質(zhì)上是兩個模型邊際似然的比值,先驗分布的變化必然會導(dǎo)致貝葉斯因子的變化(Schad et al., 2022; Tendeiro & Kiers, 2019)。在復(fù)雜的實驗設(shè)計中,了解并設(shè)置合適的參數(shù)先驗分布是困難的。因此,本文推薦使用JASP默認的先驗分布參數(shù)設(shè)定。
貝葉斯統(tǒng)計的優(yōu)勢足以令心理學(xué)等相關(guān)學(xué)科的研究者將注意從頻率學(xué)派方差分析轉(zhuǎn)移到貝葉斯方差分析(胡傳鵬等, 2018; 李貴玉, 顧昕, 2021; 許岳培等, 2022; 鄭元瑞, 胡傳鵬, 2023)。貝葉斯方差分析可以起到補充和檢驗頻率學(xué)派方差分析結(jié)果的作用,從而為研究結(jié)果提供更有力的支持(Hoijtink et al., 2019)。貝葉斯因子通常會使研究者得出和p值一致的結(jié)果。當(dāng)結(jié)果不一致時,建議按以下流程報告結(jié)果:(1)詳細地報告貝葉斯因子和p值的結(jié)果及各自所代表的含義;(2)在做出結(jié)論時持有謹慎態(tài)度,避免對結(jié)果過度解讀。當(dāng)這兩種統(tǒng)計方法得出不一致的結(jié)論時,可能有多個原因,例如,當(dāng)前研究的效應(yīng)量不夠穩(wěn)定,或者數(shù)據(jù)不滿足方差分析的前提預(yù)設(shè)等。這提示研究者需要反思當(dāng)前研究,包括樣本量是否足夠、在實驗中對無關(guān)變量的控制情況等。同時,這也啟發(fā)研究者在收集數(shù)據(jù)前要確定關(guān)鍵效應(yīng)的量值?;诖?,貝葉斯因子序列分析提供了一個新的分析視角,它要求研究者在實驗數(shù)據(jù)收集開始前,就要根據(jù)研究設(shè)計或假設(shè)確定關(guān)鍵效應(yīng)。在保證研究獲得足夠證據(jù)的前提下,設(shè)置停止收集數(shù)據(jù)的規(guī)則。在數(shù)據(jù)收集過程中,研究者可以持續(xù)分析數(shù)據(jù),貝葉斯因子和樣本量達到閾值就可以停止收集(詳細步驟和實現(xiàn)教程可參考:鄭元瑞, 胡傳鵬, 2023)。
貝葉斯因子會比p值更加保守并提供更直觀的信息(Dong & Wedel, 2017)。更為重要的是,隨著貝葉斯統(tǒng)計的應(yīng)用以及相關(guān)軟件和軟件包的開發(fā)(例如,JASP、Stan、JAGS、BayesFactor、brms、bain、BANOVA和PyMC等),研究者能更加快速和方便地開展貝葉斯分析。為了貝葉斯分析的穩(wěn)定性和可重復(fù)性,研究者也提出了一系列分析指南(Schad et al., 2022; van Doorn et al., 2021)??傊?,貝葉斯統(tǒng)計的應(yīng)用能夠為解決心理學(xué)的可重復(fù)危機作出重要貢獻。
參考文獻
胡傳鵬, 孔祥禎, Wagenmakers, E. J., Alexander, L. Y., 彭凱平(2018). 貝葉斯因子及其在 JASP 中的實現(xiàn). 心理科學(xué)進展,26(6), 951-965.
李貴玉, 顧昕(2021). 貝葉斯統(tǒng)計方法的應(yīng)用與現(xiàn)狀. 心理學(xué)探新,41(5), 466-473.
孟迎芳, 董月晴, 陳荃(2021). 概念內(nèi)隱記憶中的注意促進效應(yīng). 心理學(xué)報,53(5), 469-480.
潘晚坷, 溫秀娟, 金海洋(2022). 貝葉斯混合效應(yīng)模型在心理學(xué)中的應(yīng)用教程. CSTR:32003.36.ChinaXiv.202210.00098.V3
吳凡, 顧全, 施壯華, 高在峰, 沈模衛(wèi)(2018). 跳出傳統(tǒng)假設(shè)檢驗方法的陷阱——貝葉斯因子在心理學(xué)研究領(lǐng)域的應(yīng)用. 應(yīng)用心理學(xué),24(3), 195-202.
許岳培, 陸春雷, 王珺, 宋瓊雅, 賈彬彬, 胡傳鵬(2022). 評估零效應(yīng)的三種統(tǒng)計方法. 應(yīng)用心理學(xué),28(3), 369-384.
鄭元瑞, 胡傳鵬(2023). 貝葉斯因子序列分析:實驗設(shè)計中平衡信息與效率的新方法. 應(yīng)用心理學(xué).
Brydges, C. R., & Gaeta, L. (2019). An introduction to calculating Bayes factors in JASP for speech, language, and hearing research. Journal of Speech, Language, and Hearing Research, 62(12), 4523-4533.
Chib, S. (1995). Marginal likelihood from the Gibbs output. Journal of the American Statistical Association, 90(432), 1313-1321.
Chib, S., & Jeliazkov, I. (2001). Marginal likelihood from the Metropolis-Hastings output. Journal of the American Statistical Association, 96(453), 270-281.
Derks, K., de Swart, J., Wagenmakers, E. J., Wille, J., & Wetzels, R. (2021). JASP for audit: Bayesian tools for the auditing practice. Journal of Open Source Software, 6(68), 2733.
Dong, C., & Wedel, M. (2017). BANOVA: An R package for hierarchical Bayesian ANOVA. Journal of Statistical Software, 8(9), 1-46.
Faulkenberry, T. J., Ly, A., & Wagenmakers, E.-J. (2020). Bayesian inference in numerical cognition: A tutorial using JASP. Journal of Numerical Cognition, 6(2), 231-259.
Fritz, C. O., Morris, P. E., & Richler, J. J. (2012). Effect size estimates: Current use, calculations, and interpretation. Journal of Experimental Psychology: General, 141(1), 2-18.
Gelman, A., Hill, J., & Yajima, M. (2012). Why we (usually) don't have to worry about multiple comparisons. Journal of Research on Educational Effectiveness, 5(2), 189-211.
Grünwald, P., de Heide, R., & Koolen, W. M. (2020). Safe testing. In 2020 Information Theory and Applications Workshop (ITA) (pp. 1-54), San Diego, CA, USA.
Heck, D. W., & Bockting, F. (2021). Benefits of Bayesian model averaging for mixed-effects modeling. Comp-utational Brain & Behavior, 6, 35-49.
Heck, D. W., Boehm, U., Boing-Messing, F., Burkner, P. C., Derks, K., Dienes, Z., ... Hoijtink, H. (2022). A review of applications of the Bayes factor in psychological rese-arch. Psychological Methods, 28(3), 558-579.
Hendriksen, A., de Heide, R., & Grünwald, P. (2021). Optional stopping with Bayes factors: A categorization and extension of folklore results, with an application to invariant situations. Bayesian Analysis, 16(3), 961-989.
Hinne, M., Gronau, Q. F., van den Bergh, D., & Wagen-makers, E. J. (2020). A conceptual introduction to Bayesian model averaging. Advances in Methods and Practices in Psychological Science, 3(2), 200-215.
Hoijtink, H., Mulder, J., Van Lissa, C., & Gu, X. (2019). A tutorial on testing hypotheses using the Bayes factor. Psychological Methods, 24(5), 539-556.
Jarosz, A. F., & Wiley, J. (2014). What are the odds? A prac-tical guide to computing and reporting bayes factors. The Journal of Problem Solving, 7(1), Article 2.
JASP Team. (2022). JASP (Version 0.16.3) [Computer software]. Retrieved from https://jasp-stats.org/
Jeffreys, H. (1961). Theory of probability (3rd Ed.). Oxford, UK: Oxford University Press.
Kruschke, J. K., & Liddell, T. M. (2018). The Bayesian new statistics: Hypothesis testing, estimation, meta-analysis, and power analysis from a Bayesian perspective. Psych-onomic Bulletin & Review, 25(1), 178-206.
Liang, F., Paulo, R., Molina, G., Clyde, M. A., & Berger, J. O. (2008). Mixtures of g priors for Bayesian variable selection. Journal of the American Statistical Association, 103(481), 410-423.
Morey, R. D., & Rouder, J. N. (2022). BayesFactor: Comp-utation of Bayes factors for common designs [R package version 0.9.12-4.4]. Retrieved from https://CRAN.R-project.org/package=BayesFactor
Open Science Collaboration. (2015). Estimating the repro-ducibility of psychological science. Science, 349(6251), aac4716.
Rouder, J. N., Morey, R. D., Speckman, P. L., & Province, J. M. (2012). Default Bayes factors for ANOVA designs. Journal of Mathematical Psychology, 56(5), 356-374.
Rouder, J. N., Morey, R. D., Verhagen, J., Swagman, A. R., & Wagenmakers, E. J. (2017). Bayesian analysis of factorial designs. Psychological Methods, 22(2), 304-321.
Schad, D. J., Nicenboim, B., Burkner, P. C., Betancourt, M., & Vasishth, S. (2022). Workflow techniques for the robust use of bayes factors. Psychological Methods. Advance online publication.
Schmalz, X., Biurrun Manresa, J., & Zhang, L. (2021). What is a Bayes factor? Psychological Methods. Advance online publication.
Srinivasan, M. R., & Vijayaragunathan, R. (2021). Bayes factors for comparison of two-way ANOVA models. Journal of Statistical Theory and Applications, 19(4), 540-546.
Tendeiro, J. N., & Kiers, H. A. L. (2019). A review of issues about null hypothesis Bayesian testing. Psychological Methods, 24(6), 774-795.
van den Bergh, D., van Doorn, J., Marsman, M., Draws, T., van Kesteren, E.-J., Derks, K., ... Wagenmakers, E.-J. (2020). A tutorial on conducting and interpreting a bayesian ANOVA in JASP. L’Année psychologique, 120(1), 73-96.
van den Bergh, D., Wagenmakers, E. J., & Aust, F. (2023). Bayesian repeated-measures analysis of variance: An updated methodology implemented in JASP. Advances in Methods and Practices in Psychological Science, 6(2).
van Doorn, J., van den Bergh, D., Bohm, U., Dablander, F., Derks, K., Draws, T., ... Wagenmakers, E. J. (2021). The JASP guidelines for conducting and reporting a Bayesian analysis. Psychonomic Bulletin & Review, 28(3), 813-826.
Wagenmakers, E. J., Lodewyckx, T., Kuriyal, H., & Grasman, R. (2010). Bayesian hypothesis testing for psychologists: A tutorial on the Savage-Dickey method. Cognitive Psychology, 60(3), 158-189.
Wagenmakers, E. J., Love, J., Marsman, M., Jamil, T., Ly, A., Verhagen, J., ... Morey, R. D. (2018). Bayesian inference for psychology. Part II: Example applications with JASP. Psychonomic Bulletin & Review, 25(1), 58-76.
Wagenmakers, E. J., Marsman, M., Jamil, T., Ly, A., Verhagen, J., Love, J., ... Morey, R. D. (2018). Bayesian inference for psychology. Part I: Theoretical advantages and practical ramifications. Psychonomic Bulletin & Review, 25(1), 35-57.
Wagenmakers, E. J., Wetzels, R., Borsboom, D., & van der Maas, H. L. (2011). Why psychologists must change the way they analyze their data: The case of psi: Comment on Bem (2011). Journal of Personality and Social Psyc-hology, 100(3), 426-432.
Wetzels, R., Matzke, D., Lee, M. D., Rouder, J. N., Iverson, G. J., & Wagenmakers, E. J. (2011). Statistical evidence in experimental psychology: An empirical comparison using 855 t tests. Perspectives on Psychological Scie-nce,6(3), 291-298.