• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      貝葉斯因子及其應用

      2023-09-25 13:04:53朱訓?顧昕
      心理技術與應用 2023年9期

      朱訓?顧昕

      摘 要 貝葉斯因子檢驗是零假設顯著性檢驗的替代方法,心理學研究者可使用貝葉斯因子評估數(shù)據(jù)支持或反對理論模型的證據(jù)。但是,貝葉斯因子的原理較為復雜,在實踐中正確使用和解釋貝葉斯因子存在一定難度。為此,本文介紹貝葉斯因子的定義、用法和解釋,結(jié)合案例展示貝葉斯因子在評估零假設、區(qū)間假設、信息假設時的具體應用,并討論貝葉斯因子在統(tǒng)計模型和實證研究中的應用進展。研究者在使用貝葉斯因子時應重點關注先驗分布的設置、貝葉斯因子的解釋、后驗模型概率。

      關鍵詞 貝葉斯因子;先驗分布;后驗模型概率;發(fā)表偏差

      分類號 B841

      DOI:10.16842/j.cnki.issn2095-5588.2023.09.001

      1 引言

      零假設顯著性檢驗是當前心理學數(shù)據(jù)分析的傳統(tǒng)方法。然而近二十年來,基于p值的零假設顯著性檢驗受到了廣泛的批評(王珺等, 2019; 溫忠麟等, 2022; 鐘建軍等, 2017; Hoijtink et al., 2019; Masson, 2011; Wagenmakers, 2007)。首先,顯著性檢驗是在假定零假設為真的情況下進行的,因此無法獲得支持零假設的證據(jù)(許岳培等,2022; Wagenmakers et al., 2018)。其次,研究者將p值與預先設置的顯著性水平作比較,推斷是否拒絕零假設。二分的統(tǒng)計推斷可能導致發(fā)表偏差和研究不可重復的問題,獲得顯著性結(jié)果的心理學實證研究論文更容易被發(fā)表(胡傳鵬等, 2016; Open Science Collaboration, 2015)。例如,同一研究問題的十項研究可能僅一項結(jié)果顯著并被發(fā)表,其余九項得到非顯著性結(jié)果的研究被忽略。此外,顯著性檢驗結(jié)果無法簡單地進行數(shù)據(jù)證據(jù)的更新,多重假設檢驗需要校正顯著性水平(Rouder, 2014)。零假設顯著性檢驗的缺點使得研究者重新思考它的使用和替代方法。比如,Wasserstein和Lazar(2016)強調(diào)何時、何故以及如何正確地使用p值。Benjamin等(2017)提出將常用的顯著性水平從0.05改為0.005。但是,更嚴格的顯著性水平無法解決發(fā)表偏差的問題,甚至可能使更多的非顯著性結(jié)果被忽略。Trafimow和Marks(2015)則建議研究者不使用統(tǒng)計推斷決策,僅考慮描述統(tǒng)計來呈現(xiàn)數(shù)據(jù)分析結(jié)果。但是,描述統(tǒng)計通常無法直接回答研究問題。

      零假設顯著性檢驗的另一種替代方法是貝葉斯因子檢驗(吳凡等, 2018; Heck et al., 2023)。首先,貝葉斯因子量化了數(shù)據(jù)支持零假設或備擇假設的證據(jù),這為統(tǒng)計推斷提供了更多信息。為了控制發(fā)表偏差問題,貝葉斯因子可不作二分統(tǒng)計推斷,僅報告研究假設得到的數(shù)據(jù)證據(jù)(Hoijtink et al., 2019)。其次,貝葉斯因子可以同時評估多個假設或模型,且無需多重檢驗調(diào)整。原因是貝葉斯因子不預先控制I類錯誤,不需要調(diào)整顯著性水平。最后,貝葉斯因子可以通過數(shù)據(jù)的不斷收集更新支持或反對假設的證據(jù),即貝葉斯更新。盡管貝葉斯因子不控制I類和II類錯誤率,但研究者仍可以通過先驗分布的設置調(diào)整貝葉斯因子檢驗的I類和II類錯誤率(Gu et al., 2016)。此外,研究發(fā)現(xiàn)貝葉斯更新使得貝葉斯因子檢驗相比零假設顯著性檢驗有相同或更小的I類和II類錯誤率,意味著相同的統(tǒng)計功效,貝葉斯因子檢驗的樣本容量要求更低(Sch?nbrodt et al., 2017)。

      貝葉斯因子檢驗需要設定假設模型下的參數(shù)先驗分布,不同的先驗分布會影響貝葉斯因子的統(tǒng)計推斷結(jié)果。Rouder等(2009)使用Jeffreys-Zellner-Siow先驗,開發(fā)了R軟件包BayesFactor用于t檢驗、方差分析和回歸分析等模型的零假設和備擇假設評估。Mulder等(2012)使用最小訓練樣本定義先驗,開發(fā)了BIEMS軟件用于假設檢驗和模型評估。Gu等(2018)使用部分樣本似然函數(shù)設置先驗,開發(fā)了R軟件包bain用于零假設、區(qū)間假設、次序假設等的評估與比較。該軟件的適用模型廣泛,包括多元正態(tài)線性模型、廣義線性模型、隨機效應模型、結(jié)構(gòu)方程模型等(Hoijtink et al., 2019; Van Lissa et al., 2021)。當然,能夠計算貝葉斯因子評估假設或模型的軟件工具還有很多(JASP Team, 2020)。

      目前,已有許多文獻從不同視角介紹貝葉斯因子,推廣了其在心理學研究中的應用(Hoijtink et al., 2019; Schmalz et al., 2023; Wagenmakers et al., 2010)。在國內(nèi)心理學研究中,胡傳鵬等(2018)介紹了貝葉斯因子的原理、解釋及其在特定軟件JASP中的實現(xiàn)。吳凡等(2018)重點闡釋了貝葉斯因子的原理、優(yōu)勢和計算。但是,以往研究未涉及貝葉斯因子在零假設、區(qū)間假設、次序假設檢驗中的具體應用,也沒有討論貝葉斯因子在具體統(tǒng)計模型中的研究進展。為此,本研究結(jié)合數(shù)據(jù)分析實例,闡述貝葉斯因子的基本方法和實際應用,并討論貝葉斯因子在統(tǒng)計模型和實證應用中的進展。

      2 貝葉斯因子

      本節(jié)將借助一個簡單的例子介紹貝葉斯因子的相關概念,關于貝葉斯因子更詳細的理論介紹可參考Kass和Raftery(1995)。樣例數(shù)據(jù)來自Bem(2011)提出的關于超感知覺(ESP)是否存在的實驗。實驗共有n=40名被試,每人先看兩張卡片,一張正面有數(shù)字,另一張正面有特殊圖片,然后猜測哪張卡片上有特殊圖片。實驗得到x=26人選擇了正面為圖片的卡片。根據(jù)研究問題,構(gòu)建零假設表示被試猜對的概率為50%,即ESP不存在;備擇假設表示被試猜對的概率不等于50%,即ESP存在。更具體地,在零假設下可建立模型

      M1:x~Binomial(n=40,θ=0.5)

      模型假設成功的次數(shù)服從二項分布,并且猜測正確的概率為θ=0.5;在備擇假設下可建立模型

      M2:x~Binomial(n=40,θ≠0.5)

      該模型表示正確選擇的概率θ不等于0.5。頻率統(tǒng)計通常通過估計參數(shù)θ,并計算p值或置信區(qū)間進行推斷。比如在上述例子中參數(shù)估計值為=26/40=0.65,95%置信區(qū)間為[0.48,0.79],p值為0.096,因此在α=0.05的顯著性水平下,模型M1不能被拒絕。此時,由于顯著性檢驗無法接受零假設,研究者無法得到任何結(jié)論。

      貝葉斯統(tǒng)計推斷使用貝葉斯因子量化數(shù)據(jù)對兩個競爭假設或模型的支持程度,計算貝葉斯因子需要指定各模型下參數(shù)θ的先驗分布。先驗分布反映了觀測數(shù)據(jù)之前各模型下參數(shù)θ的可能取值及概率。模型M1指定θ恰好等于0.5,相應的先驗分布也指定θ=0.5是唯一的取值。然而,模型M2并沒有指定θ,參數(shù)θ≠0.5需要設定先驗分布量化預期效應大小的不確定性。

      先驗分布的設定是貝葉斯統(tǒng)計的重點和難點。研究者既可以指定主觀的先驗分布,也可以設置默認的先驗分布(Heck et al., 2023)。主觀先驗反映研究者的主觀信念,比如相信ESP的研究者可以指定均勻分布θ~Uniform(0.5,0.6),表示θ的取值在[0.5,0.6]之間且可能性相等。該先驗反映了如果ESP存在,正確選擇卡片的概率略大于隨機選擇的概率0.5。一般來說,主觀先驗分布是模型的擴展,將M1與M2的比較變?yōu)棣?0.5與θ~Uniform(0.5,0.6)的比較。默認先驗分布通常在先驗信息不存在時使用,研究者將得到客觀的、完全基于數(shù)據(jù)的貝葉斯推斷。比如,當研究者不知道θ的可能取值時,可設定θ~Uniform(0,1),即概率θ在0到1區(qū)間內(nèi)取任何值的概率相等。

      在指定先驗分布后,貝葉斯因子需要計算每個模型下數(shù)據(jù)的邊緣似然函數(shù)(marginal likelihood,ML)。比如,邊緣似然ML(x=26|M)是給定特定模型的情況下,在n=40次試驗中觀測到x=26次正確猜測的概率。邊緣似然值越大,模型結(jié)合先驗對數(shù)據(jù)的預測效果越好。在計算兩個模型的邊緣似然函數(shù)后,其貝葉斯因子可由下式計算:

      因此,貝葉斯因子直觀地比較了兩個模型對數(shù)據(jù)的預測能力。

      貝葉斯因子可以解釋為數(shù)據(jù)支持兩個模型的相對程度。如果貝葉斯因子等于1,說明數(shù)據(jù)對模型M1和M2的支持程度相等;如果貝葉斯因子等于5,表明數(shù)據(jù)對模型M1的支持程度是M2的5倍;如果貝葉斯因子等于0.2,意味著數(shù)據(jù)對模型M2的支持程度是M1的5倍。已有研究給出解釋貝葉斯因子的一般準則(胡傳鵬等, 2018; Kass & Raftery, 1995),并推薦使用3或1/3作為閾值推斷模型是否得到數(shù)據(jù)的支持。若BF12>3,則存在證據(jù)表明數(shù)據(jù)支持模型M1;若BF12<1/3,則數(shù)據(jù)支持模型M2;若1/3<BF12<3,則沒有足夠的證據(jù)表明數(shù)據(jù)支持任一模型。但是,以3或1/3為閾值的貝葉斯因子同樣會產(chǎn)生引言中提到的發(fā)表偏差和研究不可重復的問題(Tendeiro & Kiers, 2019)。比如,當M1是所期望的模型時,貝葉斯因子BF12>3的研究結(jié)果更有可能被發(fā)表。

      為此,統(tǒng)計學者提倡不使用貝葉斯因子作二分推斷,僅呈現(xiàn)貝葉斯因子量化數(shù)據(jù)支持模型的程度(Hoijtink et al., 2019)。與顯著性檢驗不同的是,貝葉斯因子相比于p值有更具體的含義,故不需要形式上的閾值。如果BF12=2.5,研究者僅需報告M1得到的數(shù)據(jù)支持程度是M2的2.5倍。當然,如果BF12=100,那么研究者自然地認為數(shù)據(jù)支持M1的證據(jù)是可信的。如果BF12在1附近,則通常認為貝葉斯因子不偏向任何模型。

      貝葉斯因子的另一種表達是后驗模型概率比與先驗模型概率比的比值:

      因此,貝葉斯因子可以隨著數(shù)據(jù)的收集不斷更新研究者對模型的信念。在沒有先驗信念時,研究者可以設置相等的模型先驗概率,即P(M1)=P(M2)=0.5。這時,貝葉斯因子等于模型后驗概率的比值。后驗模型概率表示在觀測數(shù)據(jù)后,研究者對模型選擇的信念。比如P(M1|x=26)=0.6表示M1是最佳模型的概率為60%。另外,后驗模型概率也可表示貝葉斯錯誤概率(Bayesian error probability)。與頻率統(tǒng)計的I類和II類錯誤率不同,貝葉斯錯誤概率是在真實模型未知的情況下,分析數(shù)據(jù)后選擇模型的錯誤率。若P(M1|x=26)=0.6,則表示選擇模型M1可能出錯的概率為1-0.6=0.4。因此,后驗模型概率評估了貝葉斯因子檢驗的不確定性。

      3 貝葉斯假設檢驗

      3.1 應用案例

      貝葉斯因子可用于檢驗零假設、區(qū)間假設、信息假設等。本節(jié)引入應用案例,并在之后的3.2、3.3、3.4節(jié)結(jié)合案例展示貝葉斯因子在以上假設檢驗中的具體應用。

      案例采用兒童教育電視節(jié)目《芝麻街》(Sesame Street)數(shù)據(jù)(Pituch & Stevens, 2016)?!吨ヂ榻帧肥墙淌?~5歲兒童學前技能的動畫片,該數(shù)據(jù)包含N=240名年齡在34到69個月的兒童,其中男孩115名,占比47.9%。變量包括兒童觀看節(jié)目后的數(shù)字測驗得分(均值M=29.45,標準差SD=12.59)、觀看節(jié)目前的數(shù)字測驗得分(均值M=20.76,標準差SD=(10.62)、詞匯測驗得分(均值M=46.80,標準差SD=16.08)、年齡(均值M=51.01,標準差SD=6.29)等。該數(shù)據(jù)集可在R軟件包bain中找到。圖1給出了變量的相關系數(shù)矩陣熱圖。

      研究假設包括:(1)男孩和女孩的數(shù)字測驗后測平均得分不存在差異。(2)兒童在觀看《芝麻街》后的數(shù)字測驗平均得分高于前測平均得分。(3)兒童數(shù)字測驗前測得分對數(shù)字測驗后測得分的影響比詞匯測驗得分大,而詞匯測驗得分的影響又比年齡大。

      3.2 貝葉斯零假設檢驗

      研究者通常通過證偽零假設獲得支持研究理論的證據(jù)。零假設是對總體參數(shù)的精確表述,比如零假設H0∶μ1=μ2表示實驗組與對照組的均值完全相等。檢驗零假設需要將其與備擇假設相比,備擇假設與零假設對立互斥,比如備擇假設H1∶μ1≠μ2表示實驗組與對照組的均值不相等。這里的一個問題是,零假設是具體的,可使用μ1-μ2=0的先驗分布定義,但是備擇假設非常模糊,我們并不知道均值的具體差異是多少。頻率統(tǒng)計推斷常以概率的方式表達備擇假設,如μ1-μ2是服從正態(tài)分布的隨機值。類似地,貝葉斯統(tǒng)計推斷通過設置參數(shù)的先驗分布定義備擇假設,如設置μ1-μ2的正態(tài)先驗分布。在定義零假設和備擇假設下μ1-μ2的先驗分布后,即可計算貝葉斯因子比較數(shù)據(jù)對零假設與備擇假設的相對支持程度。

      貝葉斯零假設檢驗相較于傳統(tǒng)零假設顯著性檢驗有著諸多優(yōu)點。首先,貝葉斯檢驗可以量化數(shù)據(jù)對零假設的支持,而顯著性檢驗只能拒絕或不拒絕零假設,不能得到支持零假設的證據(jù)。其次,在收集數(shù)據(jù)的同時,貝葉斯檢驗可以不斷更新對所關注假設的支持程度。當計劃和執(zhí)行一項研究時,如果所關注的理論假設沒有得到令人信服的數(shù)據(jù)證據(jù)支持,在貝葉斯范式中,研究者可以選擇繼續(xù)收集更多的數(shù)據(jù)并更新對假設的評估。最后,貝葉斯零假設檢驗不控制I類和II類錯誤率,即在觀測數(shù)據(jù)前,從總體中重復抽樣的決策錯誤率(I類和II類錯誤在觀測數(shù)據(jù)之前被確定)。相反,貝葉斯檢驗控制貝葉斯錯誤概率,即在觀測數(shù)據(jù)后,根據(jù)數(shù)據(jù)信息做出錯誤決策的概率(貝葉斯錯誤概率不考慮從總體中重復抽樣會發(fā)生什么,而是完全取決于數(shù)據(jù)本身)。因此,研究者在實驗設計時無需設置顯著性水平、統(tǒng)計功效閾值等與I類和II類錯誤率相關的指標。

      當然,貝葉斯零假設檢驗對使用者提出了更高的要求。貝葉斯檢驗需要思考備擇假設的實際含義是什么(Heck et al., 2023)。與傳統(tǒng)顯著性檢驗只需指定零假設不同,貝葉斯檢驗比較兩個實實在在的假設,因此必須明確備擇假設的含義。如在H0∶μ1-μ2=0的零假設和H1∶μ1-μ2=0.5的備擇假設下,貝葉斯因子BF01=5表示總體效應為0的模型受到數(shù)據(jù)的支持程度是效應為0.5的模型的5倍。然而,如果將零假設與H2∶μ1-μ2=0.2進行比較,我們可能得到BF02=0.5,說明備擇假設H2受到的數(shù)據(jù)支持更多。這一現(xiàn)象表明貝葉斯零假設檢驗比零假設顯著性檢驗更為復雜,研究者需要指定備擇假設下效應的先驗分布來定義備擇假設是什么。當然上面兩個例子中的備擇假設都是不合適的,與零假設相對的備擇假設應該包括參數(shù)或效應的所有可能取值。為此,心理統(tǒng)計學者提出默認先驗定義備擇假設,如標準化均值差異的柯西分布(Rouder et al., 2009)、近似正態(tài)分布(Gu et al., 2018)等。此外,根據(jù)心理學研究的實際情況,出現(xiàn)在零假設周圍的效應取值更有可能出現(xiàn),比如對于標準化均值差異,μ1-μ2=0.2顯然比μ1-μ2=20更有可能出現(xiàn)。在備擇假設下,若預期的效應量較小,則先驗分布的方差較小,可能的取值在零假設附近;若預期的效應量較大,則先驗分布的方差較大,可能的取值遠離零假設。

      研究者已開發(fā)出方便心理學者使用的貝葉斯檢驗軟件,包括SPSS、JASP、R、Python在內(nèi)的諸多軟件均支持貝葉斯零假設檢驗。本文以R軟件包bain(Gu et al., 2019)為例,分析3.1節(jié)應用案例中的研究假設(1):男孩和女孩的數(shù)字測驗后測平均得分不存在差異。根據(jù)研究問題確定零假設H0∶μ男=μ女和備擇假設H1∶μ男≠μ女,其中μ男和μ女分別表示男孩和女孩的數(shù)字測驗后測平均得分。隨后,使用兩獨立樣本t檢驗分析數(shù)據(jù),得到樣本均值差為男-女=1.24,95%置信區(qū)間為[-1.97, 4.45],t值為0.76。零假設顯著性檢驗的結(jié)果為p=0.447,在α=0.05的顯著性水平下無法拒絕零假設,沒有得到任何結(jié)論。貝葉斯因子可以作為顯著性檢驗p值的替代,在呈現(xiàn)統(tǒng)計量t值后,報告貝葉斯因子以及模型的后驗概率,解釋假設被支持的數(shù)據(jù)證據(jù)和不確定性。在案例中,貝葉斯零假設檢驗的結(jié)果為BF01=11.58,表明數(shù)據(jù)支持零假設H0的證據(jù)是備擇假設H1的11.58倍,即男孩和女孩的數(shù)字測驗后測平均得分不存在差異的數(shù)據(jù)證據(jù)是存在差異的11.58倍。通過BF01又可以計算零假設的后驗模型概率為BF01/(1+BF01)=0.92,表示在觀測數(shù)據(jù)后,零假設正確的概率為92%,也表明錯誤接受零假設的概率為8%。該數(shù)據(jù)分析的R代碼見附錄。

      3.3 貝葉斯區(qū)間假設檢驗

      貝葉斯檢驗通常比較零假設和備擇假設(Wagenmakers et al., 2018)。但是,研究者應該思考零假設是否能準確反映研究理論。例如,均值相等的兩個總體是否真的存在?零假設所描述的“沒有任何差異”“沒有任何效應”能否準確反映真實總體(Cohen, 1994)。人們更接受總體參數(shù)“接近于零”或者不大于指定的效應量的假設。這時,區(qū)間假設更能反映研究理論,即總體差異或效應是否在某個區(qū)間范圍內(nèi)(Heck et al., 2023)。

      常見的涉及區(qū)間假設的設計類型是優(yōu)效性設計,在這種設計中,零假設(例如,藥物或干預沒有效果)與備擇假設(例如,藥物或干預有一些積極的效果)形成對比。經(jīng)典頻率統(tǒng)計推斷通常使用單側(cè)t檢驗分析此類設計下的實驗數(shù)據(jù)。比如檢驗零假設H0∶μ=0與備擇假設H1∶μ>0。與優(yōu)效性設計相對的是非劣效設計,該設計的目標是證明新的治療藥物或干預方法不比現(xiàn)有的差,需要在觀測數(shù)據(jù)之前設置非劣效臨界值,如μ0。同樣通過單側(cè)t檢驗比較“零假設”H0∶μ<μ0與備擇假設H1∶μ≥μ0。使用區(qū)間假設的另一種設計類型是等價設計,零假設被定義在0附近的小區(qū)間[-μ0,+μ0],即H0∶-μ0≤μ≤μ0,備擇假設與區(qū)間假設對立,即H1∶μ<-μ0或μ>μ0。

      以上三種設計下的區(qū)間假設都可以使用貝葉斯因子評估(Van Ravenzwaaij et al., 2019)。區(qū)間假設的范圍大小根據(jù)總體效應大小指定,備擇假設的先驗分布可選取以零為中心的柯西分布(Rouder et al., 2009)或正態(tài)分布(Hoijtink et al., 2019)。具體而言,對于優(yōu)效性設計的備擇假設,先驗分布可使用截斷柯西分布,使得負值的分布概率為0,進而計算零假設與單邊假設的貝葉斯因子。與顯著性檢驗類似,貝葉斯單邊檢驗比雙邊檢驗更容易拒絕零假設,具有更大的統(tǒng)計功效。對于非劣性設計和等價設計,兩種假設都是區(qū)間假設,都可使用以零為中心的截斷柯西先驗,并計算兩個互補假設的貝葉斯因子。

      考慮3.1節(jié)應用案例,根據(jù)研究假設(2):兒童在觀看《芝麻街》后的數(shù)字測驗平均得分高于前測平均得分,構(gòu)造區(qū)間假設H0∶μ后>μ前和H1∶μ后≤μ前,其中μ前和μ后分別表示兒童數(shù)字測驗前測和后測平均得分。使用配對樣本t檢驗分析數(shù)據(jù),得到樣本均值差為后-前=8.69,95%置信區(qū)間為[7.48,9.90],t值為t=14.15。貝葉斯區(qū)間假設檢驗的結(jié)果為BF01=2.29×1014,H0的后驗模型概率約等于100%,選擇H0的貝葉斯錯誤概率約等于0。研究者可以很確信地給出兒童數(shù)字測驗后測平均得分高于前測平均得分的結(jié)論。數(shù)據(jù)分析的R代碼見附錄。

      3.4 貝葉斯信息假設檢驗

      第3.2、3.3節(jié)討論了零假設和區(qū)間假設檢驗的貝葉斯方法。正如前文所述,研究者不應該不假思索地使用零假設。很多情況下即使拒絕了零假設,也只能說“發(fā)生了一些事情,但不清楚是什么”。因此,研究者應該直接評估能夠準確反映研究期望的假設。研究期望可能是“男孩和女孩的數(shù)學自我概念不存在差異”,可能是“接受藥物治療的患者疼痛感輕于接受安慰劑的患者”,也可能是“自我意識是影響大學生幸福感的最重要因素,其次是學校學習和人際交往”。以上研究期望可以用H0∶μ男=μ女、H1∶μ藥<μ安、H2∶μ自>μ學>μ人等假設表達。這里,H0是零假設,H1是區(qū)間假設,H2被稱為次序假設,表示效應的大小排序。零假設、區(qū)間假設和次序假設都可以納為信息假設的范疇(Hoijtink et al., 2019)。信息假設與無信息的備擇假設對應,用來精確表達研究理論與期望。

      信息假設使用等式和不等式(“等于”“小于”或“大于”)對現(xiàn)有模型參數(shù)進行約束,模型參數(shù)可以是總體均值、方差、回歸系數(shù)、因子負荷等。例如,若μ代表四個連續(xù)的測量平均值,則μ1-μ2>μ2-μ3>μ3-μ4說明平均值的差異隨著時間的推移而減??;若μ代表兩因素方差分析的均值,則μ11-μ12>μ21-μ22表示存在特定的交互效應;若μ代表標準化回歸系數(shù),則μ1>μ2>μ3表示自變量對因變量影響的大小排序;若μ代表因子負荷,則μ1>0.5,... ,μ5>0.5表示每個因子負荷都大于0.5。此外,信息假設也可包含非線性約束 (Klugkist et al., 2010),比如若μ代表列聯(lián)表中的概率,μ11μ22/μ12μ21>1表示優(yōu)勢比大于1,即兩個分類變量存在關聯(lián)。信息假設還可以表述變量的相對重要性,即變量對模型擬合的重要性大?。ㄖ煊枺?顧昕, 2023; Gu, 2021)??傊?,各類明確的研究理論與期望都可以用信息假設表達。

      信息假設既可以使用傳統(tǒng)頻率統(tǒng)計p值評估(Silvapulle & Sen, 2004),也可以使用貝葉斯因子評估(Gu et al., 2014)。p值可以檢驗零假設與備擇假設、零假設與其他信息假設,但是無法比較除零假設以外的相互競爭的信息假設。而貝葉斯因子則可以評估兩個信息假設得到的相對數(shù)據(jù)證據(jù)。當只評估一個信息假設時,貝葉斯因子可將其與互補假設相比較。例如μ1>μ2>μ3的互補假設為包含μ2>μ1>μ3、μ2>μ3>μ1等其他五個次序約束的假設,記為互補假設HC。信息假設的先驗分布可設置截斷先驗,與無約束的備擇假設具有相同的先驗形式。比如,若設定備擇假設下μ1,μ2,μ3的先驗為多元正態(tài)分布,則信息假設μ1>μ2>μ3下的先驗分布為限制在該約束條件下的截斷多元正態(tài)分布。

      回顧3.1節(jié)應用案例,評估研究假設(3):兒童數(shù)字測驗前測得分對數(shù)字測驗后測得分的影響比詞匯測驗得分大,而詞匯測驗得分的影響又比年齡大。先建立回歸模型

      數(shù)字后測得分=β0+β1數(shù)字前測得分+β2詞匯測驗得分+β3年齡

      其中β0表示截距,β1,β2,β3表示相應的回歸系數(shù)。隨后根據(jù)研究假設構(gòu)建信息假設H1∶1 >2>3,其中代表標準化回歸系數(shù)。注意,比較自變量影響大小需使用標準化系數(shù)。分析數(shù)據(jù)得到標準化回歸系數(shù)1,2,3的估計值分別為0.57,0.15,0.06,95%置信區(qū)間分別為[0.46,0.67],[0.04,0.26],[-0.04,0.16]。將信息假設H1與互補假設HC相比較,計算貝葉斯因子得到BF1C=38.77,表明數(shù)據(jù)支持信息假設H1的證據(jù)是其互補假設的38.77倍,意味著有很強的證據(jù)表明在數(shù)字測驗后測得分的影響因素中,前測得分的影響大于詞匯測驗得分,又大于年齡。數(shù)據(jù)分析R代碼見附錄。

      4 貝葉斯因子的應用進展

      研究者使用t檢驗驗證正態(tài)總體均值是否等于預設值、兩個正態(tài)總體均值是否存在差異等研究問題。貝葉斯t檢驗已有完善的統(tǒng)計方法和軟件工具。在心理學領域,研究者提出設定t檢驗的效應量服從柯西先驗分布(Rouder et al., 2009),但是基于柯西先驗的貝葉斯因子無顯式表達式,計算較為困難。為此,Morey等(2011)在柯西先驗分布下,使用馬爾科夫鏈蒙特卡洛(MCMC)抽樣方法有效估計t檢驗的貝葉斯因子。此外,在該方法的基礎上研究者提出有信息的貝葉斯t檢驗,展示如何根據(jù)效應量的先驗信息設定柯西先驗分布(Gronau et al., 2019)。需要指出的是,柯西先驗分布不是貝葉斯t檢驗的唯一選擇。事實上,對于t檢驗的總體均值和方差,正態(tài)-逆伽馬共軛先驗也應用廣泛。Gu等(2016)比較了不同先驗分布下,貝葉斯檢驗的I類和II類錯誤率,并指出可通過調(diào)整先驗參數(shù)控制錯誤率。

      方差分析用于三個及以上總體均值的比較,是實驗心理學常用的統(tǒng)計方法。在貝葉斯方差分析中,Rouder等(2012)將柯西先驗分布拓展到多正態(tài)總體均值,并使用MCMC抽樣方法估計貝葉斯因子。該方法可用于固定效應、隨機效應、混合效應的方差分析,同時允許連續(xù)協(xié)變量的存在。而Wetzels等(2012)基于正態(tài)-逆伽馬先驗,介紹了貝葉斯方差分析,并討論了貝葉斯因子的計算、性質(zhì)和應用。此外,對于比較多個正態(tài)總體均值大小的次序假設,貝葉斯方差分析的優(yōu)勢更為明顯。Klugkist等(2005)最早提出均值次序假設的貝葉斯因子檢驗,將貝葉斯因子表示為次序假設限制下的模型擬合度與復雜度之比。

      回歸分析是推斷多變量關系必不可少的統(tǒng)計方法。一方面,貝葉斯回歸分析需指定回歸系數(shù)和殘差方差的先驗分布,最常用的g先驗設置回歸系數(shù)β在殘差方差σ2給定的條件下服從正態(tài)分布β|σ2~N(0,gσ2(X'X)-1),其中X表示自變量矩陣,g為超參數(shù)(Liang et al., 2008)。在g先驗分布下,貝葉斯因子有顯示表達式,計算方便。Rouder和Morey(2012)將g先驗下的貝葉斯因子推廣到心理學研究應用中,為貝葉斯因子檢驗提供了軟件工具。另一方面,變量選擇是回歸分析的關鍵步驟,旨在找出對因變量有實際影響的自變量,排除干擾或冗余變量。與假設檢驗不同,變量選擇需要比較多個模型,貝葉斯評價指標為后驗模型概率。后驗模型概率表示為貝葉斯因子和先驗模型概率的乘積,因此在進行貝葉斯變量選擇時,除了要計算貝葉斯因子,先驗模型概率的設置也至關重要。當研究者無任何偏好,且自變量數(shù)目較少時,可設置各模型的先驗概率相等;當自變量數(shù)目較多時,則建議使用全貝葉斯(Fully Bayes)方法校正模型先驗概率(Gu et al., 2022)。

      除了t檢驗、方差分析、回歸分析等經(jīng)典模型,貝葉斯因子檢驗也已應用到列聯(lián)表模型(Klugkist et al., 2010),重復測量模型(Mulder et al., 2009),結(jié)構(gòu)方程模型(Van Lissa et al., 2021),多元線性模型(Mulder & Gu, 2022),混合效應模型(Van Doorn et al., 2023),高斯圖模型(Williams & Mulder, 2020)等。研究者也開發(fā)出多個統(tǒng)計軟件支持各類模型下的貝葉斯因子計算,包括R軟件包BayesFactor,bain,BFpack,BayesVarSel,BayestestR等。其中軟件包BayesFactor和bain已集成在可視化統(tǒng)計軟件JASP中。

      不同的貝葉斯因子計算軟件有不同的先驗分布設置。其中,軟件包BayesFactor設置備擇假設下參數(shù)的柯西先驗分布,并通過超參數(shù)調(diào)節(jié)先驗方差的大小。默認的超參數(shù)將使得95%的先驗分布落在社會科學研究常用的效應量范圍[-1,1]內(nèi)。軟件包bain和BFpack使用部分數(shù)據(jù)樣本設置參數(shù)的共軛先驗,超參數(shù)為用于先驗分布的數(shù)據(jù)樣本比例。默認的超參數(shù)將設置最小訓練樣本。此外,軟件包bain正態(tài)近似參數(shù)的后驗分布,可用于一般統(tǒng)計模型的貝葉斯因子計算,而BFpack僅限于線性正態(tài)模型的貝葉斯檢驗。軟件包BayesVarSel適用于變量選擇,默認使用穩(wěn)健g先驗設置回歸系數(shù)的先驗分布。軟件包BayestestR需借助其他軟件先獲得參數(shù)的后驗分布抽樣,再計算貝葉斯因子。該軟件包并未提供默認的先驗分布,但給出了設置有信息先驗的指導。

      由于先驗分布設置的差異,不同軟件包可能給出不同的貝葉斯因子。但是,基于默認先驗的貝葉斯因子通常差異不大,在不考慮閾值的情況下,研究者不會得到相悖的結(jié)論。而當樣本容量較大時,貝葉斯因子具備一致性,不同軟件將給出類似的結(jié)果。本文建議研究者在研究設計時明確先驗分布和分析軟件,在數(shù)據(jù)分析時依據(jù)預先計劃計算貝葉斯因子。當然,先驗分布和分析軟件的選擇往往是主觀的決策,可能影響研究結(jié)果,這些決策被稱為“研究者自由度”。需要指出的是,頻率統(tǒng)計同樣存在研究者自由度,包括顯著性水平的設定,統(tǒng)計量的選擇等。比如,對于相同的研究假設和數(shù)據(jù),瓦爾德檢驗、似然比檢驗、bootstrap抽樣方法得到的p值也會存在差異。因此,盡管研究者試圖客觀,但無論是頻率統(tǒng)計還是貝葉斯統(tǒng)計推斷,都無法得到完全客觀的結(jié)果。

      貝葉斯因子的模型應用研究和軟件開發(fā)已較為完善,這為貝葉斯因子的實證應用打下了基礎。針對不同應用領域,研究者結(jié)合具體案例闡述了貝葉斯因子數(shù)據(jù)分析的基本方法。例如,在認知心理學領域,Wagenmakers等(2010)給出貝葉斯因子的使用教程,并分析了注意力缺陷多動障礙研究的實證數(shù)據(jù);在實驗心理學領域,Wetzels等(2011)利用t檢驗實例,展示貝葉斯因子的數(shù)據(jù)分析過程,并與顯著性檢驗p值相比較,結(jié)果顯示兩者得到的數(shù)據(jù)證據(jù)存在差別;在發(fā)展心理學領域,Van de Schoot等(2014)以人格和人際關系的交叉滯后模型為例,介紹了貝葉斯數(shù)據(jù)分析策略和結(jié)果報告范式;在神經(jīng)科學領域,Keysers等(2020)指出大腦研究明確有效和無效的實驗操作十分重要,并利用貝葉斯t檢驗和方差分析,教程式地展示了貝葉斯因子推斷無效實驗操作的過程。這些貝葉斯因子實證研究教程均在相關領域得到了廣泛關注,促進了貝葉斯因子在心理學實證研究中的應用。

      在心理學數(shù)據(jù)分析中,貝葉斯因子有著顯著性檢驗不可替代的優(yōu)勢。與傳統(tǒng)顯著性檢驗相比,貝葉斯因子可以得到支持無效應零假設的證據(jù)。在具體案例中,Keysers等(2020)使用貝葉斯因子得到大鼠前扣帶皮層失活不會導致非社交性觸發(fā)凍結(jié)行為減少的結(jié)論。此外,貝葉斯因子在推斷研究假設是否得到數(shù)據(jù)支持的同時,量化數(shù)據(jù)支持假設的證據(jù)和強度,這也是顯著性檢驗所不具備的。比如,Wagenmakers等(2010)根據(jù)貝葉斯因子檢驗得出,注意力缺陷多動障礙的兒童與正常兒童在威斯康辛卡片分類測驗上的表現(xiàn)類似,并且支持該結(jié)論的數(shù)據(jù)證據(jù)是反對該結(jié)論(即表現(xiàn)存在差異)的5倍。

      5 總結(jié)與討論

      貝葉斯統(tǒng)計推斷已廣泛應用于心理學數(shù)據(jù)分析(李貴玉, 顧昕, 2021; Van de Schoot et al., 2017)。但是,目前大部分應用僅涉及貝葉斯參數(shù)估計,未考慮貝葉斯假設檢驗。參數(shù)估計和假設檢驗是統(tǒng)計推斷不可或缺的環(huán)節(jié)。前者關注特定模型下參數(shù)的估計值及誤差范圍,解決的是什么樣的參數(shù)值最可信的問題;后者比較兩個或兩個以上的理論假設,判斷的是哪種理論模型能更準確地描述數(shù)據(jù)。相比于顯著性檢驗,貝葉斯檢驗在心理學數(shù)據(jù)分析中的應用還不夠廣泛。研究者在計劃使用貝葉斯因子時缺乏具體方法、模型和案例指導。為此,本文重點介紹了貝葉斯因子及其應用,為研究者正確使用貝葉斯因子評估零假設、區(qū)間假設、信息假設提供了方法支持。此外,本研究展示了貝葉斯因子在統(tǒng)計模型和實證研究中的應用進展,幫助研究者了解貝葉斯因子的適用模型和應用場景。期望本文對貝葉斯因子的論述能夠推廣其實際應用。

      貝葉斯因子檢驗為心理學研究的統(tǒng)計推斷提供了新方法,但是研究者也可能會錯誤使用、錯誤解釋貝葉斯因子。先驗分布對貝葉斯因子至關重要,它以分布的形式精確表達研究理論和先驗知識。但是,當先驗知識不存在或無法獲得時,參數(shù)估計常用的無信息先驗不能用在貝葉斯因子的先驗設置上,否則將導致無論觀測數(shù)據(jù)如何,貝葉斯因子永遠支持零假設的后果。因此,研究者需要根據(jù)研究問題設置具有實質(zhì)含義的先驗,這增加了貝葉斯因子的使用難度。為此,貝葉斯因子檢驗軟件給出了默認先驗設置,在先驗信息缺失的情況下,研究者使用軟件的默認設置即可。

      貝葉斯因子作為貝葉斯檢驗指標,能否避免發(fā)表偏差和研究不可重復的問題,取決于研究者如何解釋貝葉斯因子。為方便研究者使用,統(tǒng)計學者將貝葉斯因子表達的數(shù)據(jù)證據(jù)劃分類別,如BF12>3表示有令人信服的證據(jù)支持第一個模型。但是,本文不建議使用嚴格的貝葉斯因子閾值對數(shù)據(jù)證據(jù)做二分或三分判斷,更推薦的方法是報告數(shù)據(jù)支持假設的相對證據(jù)。需要注意的是,不作二分推斷的貝葉斯因子能在一定程度上減少發(fā)表偏差的問題,但無法完全避免該問題。解決發(fā)表偏差問題的一種方法是研究的預注冊。預注冊要求研究者在收集數(shù)據(jù)之前完成研究設計和數(shù)據(jù)分析計劃,并提交同行評審。審稿人和期刊根據(jù)研究問題的意義和研究設計的合理性決定是否接收文章,文章被接收后再開展數(shù)據(jù)收集和分析工作。無論數(shù)據(jù)分析結(jié)果如何,預期研究假設是否受到數(shù)據(jù)支持都不影響文章的發(fā)表。但是,預注冊對同行評審的要求更高,研究設計和數(shù)據(jù)分析計劃的合理性,在收集或分析數(shù)據(jù)之前可能較難判斷。比如,數(shù)據(jù)的正態(tài)性與方差齊次性等可能會影響統(tǒng)計方法的選擇。

      貝葉斯因子檢驗同樣存在不足。首先,貝葉斯因子的原理較為復雜,不熟悉貝葉斯方法的研究者難以理解。本研究結(jié)合實例,以較為簡單的方式闡釋了貝葉斯因子的含義,關于貝葉斯因子的數(shù)學原理可參考胡傳鵬等(2018)和Kass和Raftery(1995)。其次,貝葉斯方法需要設置參數(shù)的先驗分布。一方面,對于主觀先驗,研究者如何將抽象的先驗信息轉(zhuǎn)化為具體的先驗分布是貝葉斯方法的難點。盡管已有文獻討論貝葉斯因子檢驗的主觀先驗分布設置方法(Gronau et al., 2019),但其應用模型十分有限。另一方面,對于客觀先驗,貝葉斯因子無法使用無信息先驗,不同默認先驗下的貝葉斯因子存在差異,研究者面臨選擇。最后,貝葉斯因子的計算困難,盡管已有許多軟件支持貝葉斯因子的計算,但在復雜統(tǒng)計模型的開發(fā)進程上還落后于頻率統(tǒng)計推斷方法。此外,復雜模型下的貝葉斯因子計算需要借助MCMC抽樣,計算效率不如頻率統(tǒng)計推斷。

      貝葉斯因子檢驗的未來研究方向應關注不同默認先驗的比較與整合,方便研究者理解并選擇合適的先驗分布。同時,用戶友好的貝葉斯統(tǒng)計軟件的開發(fā)與優(yōu)化也是未來研究的重點。盡管目前已有JASP可視化數(shù)據(jù)分析軟件能夠用于貝葉斯數(shù)據(jù)分析,但其功能還不如社會科學常用軟件SPSS。最后,統(tǒng)計方法的學習、應用和推廣離不開課堂教學和科研訓練。期望心理統(tǒng)計學者能在日常教學與學生培養(yǎng)工作中融入貝葉斯統(tǒng)計方法。

      參考文獻

      胡傳鵬, 孔祥禎, Wagenmakers, E.-J., Ly, A., 彭凱平(2018). 貝葉斯因子及其在 JASP 中的實現(xiàn). 心理科學進展, 26(6), 951-965.

      胡傳鵬, 王非, 宋夢迪, 隋潔, 彭凱平 (2016). 心理學研究中的可重復性問題: 從危機到契機. 心理科學進展, 24(9), 1504-1518.

      李貴玉, 顧昕 (2021). 貝葉斯統(tǒng)計方法的應用與現(xiàn)狀. 心理學探新, 41(5), 466-473.

      王珺珺, 宋瓊雅, 許岳培, 賈彬彬, 胡傳鵬 (2019). 效應量置信區(qū)間的原理及其實現(xiàn). 心理技術與應用, 7(5), 284-296.

      溫忠麟, 謝晉艷, 方杰, 王一帆 (2022). 新世紀20年國內(nèi)假設檢驗及其關聯(lián)問題的方法學研究. 心理科學進展, 30(8), 1667-1681.

      吳凡, 顧全, 施壯華, 高在峰, 沈模衛(wèi) (2018). 跳出傳統(tǒng)假設檢驗方法的陷阱——貝葉斯因子在心理學研究領域的應用. 應用心理學, 24(3), 195-202.

      許岳培, 陸春雷, 王珺, 宋瓊雅, 賈彬彬, 胡傳鵬 (2022). 評估零效應的三種統(tǒng)計方法. 應用心理學, 28(3), 369-384.

      鐘建軍, Dienes,Z., 陳中永 (2017). 心理研究引入貝葉斯統(tǒng)計推斷的必要性、應用思路與領域. 心理科學, 40(6), 1477-1482.

      朱訓, 顧昕 (2023). 變量相對重要性評估的方法選擇及應用. 心理科學進展, 31(1), 145-158.

      Bem, D. J. (2011). Feeling the future: Experimental evide-nce for anomalous retroactive influences on cognition and affect. Journal of Personality and Social Psychology, 100(3), 407-425.

      Benjamin, D. J., Berger, J. O., Johannesson, M., Nosek, B. A., Wagenmakers, E.-J., Berk, R., ... Johnson, V. E. (2017). Redefine statistical significance. Nature Human Behaviour, 2(1),6-10.

      Cohen, J. (1994). The earth is round (p<.05). American Psychologist, 49(12),997-1003.

      Gronau, Q. F., Ly, A., & Wagenmakers, E.-J. (2019). Informed Bayesian t-Tests. The American Statistician, 74(2), 137-143.

      Gu, X. (2021). Evaluating predictors’ relative importance using Bayes factors in regression models. Psychological Methods. Advance online publication. https://doi.org/10.1037/met0000431

      Gu, X., Hoijtink, H., & Mulder, J. (2016). Error probabilities in default Bayesian hypothesis testing. Journal of Math-ematical Psychology, 72, 130-143.

      Gu, X., Hoijtink, H., & Mulder, J. (2022). Bayesian one-sided variable selection. Multivariate Behavioral Res-earch, 57(2), 264-278.

      Gu, X., Hoijtink, H., Mulder, J., & Lissa, C. J. V. (2019). Bain: Bayes factors for informative hypotheses. Retr-ieved from https://CRAN.Rproject.org/package=bain (R package version 0.2.1)

      Gu, X., Mulder, J., Dekovic, M., & Hoijtink, H. (2014). Bayesian evaluation of inequality constrained hypo-theses. Psychological Methods, 19(4), 511-527.

      Gu, X., Mulder, J., & Hoijtink, H. (2018). Approximated adjusted fractional Bayes factors: A general method for testing informative hypotheses. British Journal of Mathematical and Statistical Psychology, 71(2), 229-261.

      Heck, D., Boehm, U., B?ing-Messing, F., Bürkner, P., Derks, K., Dienes, Z., ... Hoijtink, H. (2023). A review of applications of the Bayes factor in psychological research. Psychological Methods, 28(3), 558-579.

      Hoijtink, H., Mulder, J., van Lissa, C., & Gu, X. (2019). A tutorial on testing hypotheses using the Bayes factor. Psychological Methods, 24(5), 539-556.

      JASP Team (2020). JASP (Version 0.13.1)[Computer software]. Retrieved from https://jasp-stats.org/

      Kass, R. E., & Raftery, A. E. (1995). Bayes factors. Journal of the American Statistical Association, 90(430),773-795.

      Keysers, C., Gazzola, V., & Wagenmakers, E.-J. (2020). Using Bayes factor hypothesis testing in neuroscience to establish evidence of absence. Nature Neuroscience, 23(7), 788-799.

      Klugkist, I., Laudy, O., & Hoijtink, H. (2005). Inequality constrained analysis of variance: A Bayesian approach. Psychological Methods, 10(4), 447-493.

      Klugkist, I., Laudy, O., & Hoijtink, H. (2010). Bayesian evaluation of inequality and equality constrained hypot-heses for contingency tables. Psychological Methods, 15(3), 281-299.

      Liang, F., Paulo, R., Molina, G., Clyde, M. A., & Berger, J. O. (2008). Mixtures of g priors for Bayesian variable selection. Journal of the American Statistical Association, 103(481), 410-423.

      Masson, M. E. (2011). A tutorial on a practical Bayesian alternative to null-hypothesis significance testing. Beh-avioral Research Methods, 43(3), 679-690.

      Morey, R. D., Rouder, J. N., Pratte, M. S., & Speckman, P. L. (2011). Using MCMC chain outputs to efficiently estimate Bayes factors. Journal of Mathematical Psy-chology, 55(5), 368-378.

      Mulder, J., & Gu, X. (2022). Bayesian testing of scientific expectations under multivariate normal linear models. Multivariate Behavioral Research, 57(5), 767-783.

      Mulder, J., Hoijtink, H., & de Leeuw, C. (2012). BIEMS: A Fortran 90 program for calculating Bayes factors for inequality and equality constrained models. Journal of Statistical Software, 46(2),1-39.

      Mulder, J., Klugkist, I., Van de Schoot, R., Meeus, M., Selfhout, M., & Hoijtink, H. (2009). Bayesian model selection of informative hypotheses for repeated meas-urements. Journal of Mathematical Psychology, 53(6), 530-546.

      Open Science Collaboration. (2015). Estimating the repr-oducibility of psychological science. Science, 349(6251), aac4716.

      Pituch, K.A. & Stevens, J.P. (2016). Applied Multivariate Statistics for the Social Sciences (sixth edition). New York: Routledge.

      Rouder, J. N. (2014). Optional stopping: No problem for Bay-esians. Psychonomic Bulletin & Review, 21(2),301-308.

      Rouder, J. N., & Morey, R. D. (2012). Default Bayes factors for model selection in regression. Multivariate Behavioral Research, 47(6), 877-903.

      Rouder, J. N., Morey, R. D., Speckman, P. L., & Province, J. M. (2012). Default Bayes factors for ANOVA designs. Journal of Mathematical Psychology, 56(5), 356-374.

      Rouder, J. N., Speckman, P. L., Sun, D., Morey, R. D., & Iverson, G. (2009). Bayesian t-tests for accepting and rejecting the null hypothesis. Psychonomic Bulletin & Review, 16(2),225-237.

      Schmalz, X., Biurrun Manresa, J., & Zhang, L. (2023). What is a Bayes factor? Psychological Methods, 28(3), 705-718.

      Sch?nbrodt, F. D., Wagenmakers, E.-J., Zehetleitner, M., & Perugini, M. (2017). Sequential hypothesis testing with Bayes factors: Efficiently testing mean differences. Psychological Methods, 22(2),322-339.

      Silvapulle, M., & Sen, P. (2004). Constrained Statistical Inference: Order, Inequality, and Shape Constraints. New York: Wiley.

      Tendeiro, J. N., & Kiers, H. A. L. (2019). A review of issues about null hypothesis Bayesian testing. Psychological Methods, 24(6),774-795.

      Trafimow, D., & Marks, M. (2015). Editorial. Basic and Applied Social Psychology, 37, 1-2.

      Van de Schoot, R., Kaplan, D., Denissen, J., Asendorpf, J. B., Neyer, F. J., & Van Aken, M. A. (2014). A gentle introduction to Bayesian analysis: Applications to deve-lopmental research. Child Development, 85(3), 842-860.

      Van de Schoot, R., Winter, S. D., Ryan, O., Zondervan-Zwijnenburg, M., & Depaoli, S. (2017). A systematic review of Bayesian articles in psychology: The last 25 years. Psychological Methods,22(2), 217-239.

      Van Doorn, J., Haaf, J. M., Stefan, A. M., Wagenmakers, E. J., Cox, G. E., Davis-Stober, C.P., ... Aust, F. (2023). Bayes Factors for mixed models: A discussion. Computational Brain & Behavior, 6(1), 140-158.

      Van Lissa, C., Gu, X., Mulder, J., Rosseel, Y., Van Zundert, C., & Hoijtink, H. (2021). Teacher’s corner: Evaluating informative hypotheses using the Bayes factor in struct-ural equation models. Structural Equation Modelling: A Multidisciplinary Journal, 28(2),292-301.

      Van Ravenzwaaij, D., Monden, R., Tendeiro, J. N., & Ioannidis, J. P. A. (2019). Bayes factors for superiority, non-inferiority, and equivalence designs. BMC Medical-Research Methodology, 19(71), 1-12.

      Wagenmakers, E.-J. (2007). A practical solution to the pervasive problems of p values. Psychonomic Bulletin & Review, 14(5), 779-804.

      Wagenmakers, E.-J., Lodewyckx, T., Kuriyal, H., & Grasman, R. (2010). Bayesian hypothesis testing for psychologists: A tutorial on the Savage-Dickey method. Cognitive Psychology, 60(3), 158-189.

      Wagenmakers, E.-J., Marsman, M., Jamil, T., Ly, A., Verhagen, J., Love, J., ... Morey, R. D. (2018). Bayesian inference for psychology. Part I: Theoretical advantages and practical ramifications. Psychonomic Bulletin & Review, 25, 35-57.

      Wasserstein, R. L., & Lazar, N. A. (2016). The ASA’s statement on p-values: Context, process, and purpose. The American Statistician, 70(2), 129-133.

      Wetzels, R., Grasman, R. P., & Wagenmakers, E.-J. (2012). A default Bayesian hypothesis test for ANOVA designs. The American Statistician, 66(2), 104-111.

      Wetzels, R., Matzke, D., Lee, M. D., Rouder, J. N., Iverson, G. J., & Wagenmakers, E. J. (2011). Statistical evidence in experimental psychology: An empirical comparison using 855 t tests. Perspectives on Psychological Science, 6(3), 291-298.

      Williams, D. R., & Mulder, J. (2020). Bayesian hypothesis testing for Gaussian graphical models: Conditional inde-pendence and order constraints.Journal of Mathematical Psychology, 99, 102441.

      沂南县| 富民县| 平昌县| 滦平县| 沈丘县| 弥渡县| 股票| 政和县| 循化| 资阳市| 北海市| 神农架林区| 乌拉特前旗| 吐鲁番市| 曲靖市| 内乡县| 姚安县| 枣庄市| 福安市| 萝北县| 新巴尔虎左旗| 田林县| 兴仁县| 博白县| 红原县| 香河县| 东源县| 汨罗市| 遂平县| 无棣县| 寿宁县| 兴仁县| 肃北| 久治县| 江西省| 湘阴县| 柯坪县| 方城县| 林州市| 乌拉特后旗| 玉环县|