• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      統(tǒng)計(jì)檢驗(yàn)力的分析流程與多層模型示例

      2019-05-24 07:47:58趙禮王暉
      心理技術(shù)與應(yīng)用 2019年5期
      關(guān)鍵詞:假設(shè)檢驗(yàn)

      趙禮 王暉

      摘?要?影響統(tǒng)計(jì)檢驗(yàn)力的因素包括研究設(shè)計(jì)因素、研究工具因素和統(tǒng)計(jì)學(xué)因素。統(tǒng)計(jì)檢驗(yàn)力分析是實(shí)驗(yàn)設(shè)計(jì)中非常重要的一部分:先驗(yàn)統(tǒng)計(jì)檢驗(yàn)力分析可以幫助研究者在實(shí)驗(yàn)開始之前確定樣本量以節(jié)約人力物力;后驗(yàn)統(tǒng)計(jì)檢驗(yàn)力分析可以在研究完成之后幫助研究者審視研究效力,為后續(xù)研究提供幫助。當(dāng)研究問題或?qū)嶒?yàn)設(shè)計(jì)較為復(fù)雜時(shí),可借助Optimal Design設(shè)計(jì)多階層統(tǒng)計(jì)檢驗(yàn)力分析。建議在本科及研究生階段重視統(tǒng)計(jì)檢驗(yàn)力分析的教學(xué),在科研中注重統(tǒng)計(jì)檢驗(yàn)力分析的應(yīng)用,以優(yōu)化實(shí)驗(yàn)設(shè)計(jì)并增加研究結(jié)果的可靠性。

      關(guān)鍵詞?統(tǒng)計(jì)檢驗(yàn)力; 多層分析; 效應(yīng)量; 假設(shè)檢驗(yàn); Optimal Design

      分類號(hào)?B841.2

      DOI: 10.16842/j.cnki.issn2095-5588.2019.05.002

      統(tǒng)計(jì)檢驗(yàn)力(power)是指能正確拒絕錯(cuò)誤的零假設(shè)(null hypothesis)的概率,是經(jīng)典統(tǒng)計(jì)決策理論和假設(shè)檢驗(yàn)?zāi)J街胁豢扇鄙俚囊徊糠?。近年來,統(tǒng)計(jì)檢驗(yàn)力分析越來越受到重視,很多學(xué)術(shù)期刊已經(jīng)明確要求研究者在論文中提供統(tǒng)計(jì)檢驗(yàn)力相關(guān)內(nèi)容。但在目前國(guó)內(nèi)的心理學(xué)教學(xué)與研究過程中,統(tǒng)計(jì)檢驗(yàn)力分析仍未得到充分的重視。本文著重探討了統(tǒng)計(jì)檢驗(yàn)力影響因素和基本分析流程,并且討論了統(tǒng)計(jì)檢驗(yàn)力分析中可能遇到的實(shí)際問題,并借助Optimal Design來展示如何設(shè)計(jì)多階層統(tǒng)計(jì)檢驗(yàn)力分析,可為當(dāng)下心理學(xué)教學(xué)與研究中統(tǒng)計(jì)檢驗(yàn)力分析與應(yīng)用提供參考。

      1?統(tǒng)計(jì)檢驗(yàn)力的影響因素

      影響統(tǒng)計(jì)檢驗(yàn)力的因素有很多,主要包括研究設(shè)計(jì)因素、研究工具因素和統(tǒng)計(jì)學(xué)因素。

      第一,研究設(shè)計(jì)因素。例如,問卷設(shè)計(jì)中存在的雷區(qū)不只會(huì)對(duì)研究數(shù)據(jù)產(chǎn)生影響,也會(huì)影響統(tǒng)計(jì)檢驗(yàn)力。在用詞與表述上,研究者不應(yīng)使用復(fù)雜難懂、過于專業(yè)的詞匯。研究問題不應(yīng)對(duì)被試造成引導(dǎo)性影響,諸如“你是否同意流產(chǎn)——一種謀殺無辜人類的做法——應(yīng)該取締?”這樣的問題在研究中應(yīng)當(dāng)避免。除有意引導(dǎo)外,一些問題可能會(huì)因其表意含糊不清而產(chǎn)生歧義。另外,非開放式問題通常比開放式問題的檢驗(yàn)力要高,因?yàn)殚_放式問題的答案多樣性更高。這些用詞與表述問題會(huì)使得研究隨機(jī)誤差增加,從而降低統(tǒng)計(jì)檢驗(yàn)力。并且,由于取悅效應(yīng)以及研究中可能涉及敏感問題的存在,被試可能會(huì)隱藏他們的真實(shí)想法,從而導(dǎo)致組間差異變小,進(jìn)而降低檢驗(yàn)力,因此實(shí)驗(yàn)中的保密和匿名原則很重要。同樣,實(shí)驗(yàn)的設(shè)計(jì)也會(huì)影響統(tǒng)計(jì)檢驗(yàn)力。如果被試間的差異可以得到控制,統(tǒng)計(jì)檢驗(yàn)力會(huì)增加,例如重復(fù)測(cè)量設(shè)計(jì)比獨(dú)立樣本設(shè)計(jì)的統(tǒng)計(jì)檢驗(yàn)力要高。但是不可單純追求控制被試差異,在取樣過程中,如果抽樣框架是錯(cuò)誤的(例如包括非理想群體或者理想群體被排除),檢驗(yàn)力也會(huì)降低。

      第二,研究工具因素。例如,量表的精細(xì)程度會(huì)影響統(tǒng)計(jì)檢驗(yàn)力。粗糙的量表會(huì)造成相關(guān)系數(shù)的降低(Aguinis, Pierce, & Culpepper, 2009),這類問題是由于研究工具本身所決定的。例如,李克特量表可以用來測(cè)量被試的態(tài)度(例如1表示非常不同意,5表示非常同意),然而由于量表本身的限制,被試只能在1到5這五個(gè)數(shù)字中選擇,從而造成1.6與2.6或者2.7與3.4之間的比較無法測(cè)得,進(jìn)而降低統(tǒng)計(jì)檢驗(yàn)力。

      第三,統(tǒng)計(jì)學(xué)因素。(1)數(shù)據(jù)的范圍限制會(huì)影響統(tǒng)計(jì)檢驗(yàn)力。例如,要研究大學(xué)GPA和課堂出勤率的關(guān)系,如果對(duì)GPA的范圍加以限制,例如只選取GPA在1~4之間的學(xué)生,從而導(dǎo)致研究相關(guān)關(guān)系的數(shù)據(jù)受限,會(huì)造成統(tǒng)計(jì)檢驗(yàn)力降低。(2)違反統(tǒng)計(jì)假設(shè)也會(huì)造成統(tǒng)計(jì)檢驗(yàn)力的降低(Maxwell, Delaney, & Kelley, 2018)。例如對(duì)于統(tǒng)計(jì)檢驗(yàn)力的分析通?;谡龖B(tài)分布的假設(shè),如果違反此假設(shè)則需要對(duì)統(tǒng)計(jì)檢驗(yàn)力重新進(jìn)行解釋。非參數(shù)檢驗(yàn)(例如Kruskal-Wallis H檢驗(yàn))可以應(yīng)用在非正態(tài)分布的情況,并且變量的轉(zhuǎn)換(例如對(duì)數(shù)轉(zhuǎn)換)可以改變分布的形狀使其為正態(tài)分布。(3)測(cè)量的信度也會(huì)影響統(tǒng)計(jì)檢驗(yàn)力,通常長(zhǎng)測(cè)驗(yàn)比短測(cè)驗(yàn)要更加可靠,因?yàn)殚L(zhǎng)測(cè)驗(yàn)的變異性較低(Coe, 2002)。例如一個(gè)有100個(gè)項(xiàng)目的測(cè)驗(yàn)的標(biāo)準(zhǔn)差比一個(gè)有10個(gè)項(xiàng)目的測(cè)驗(yàn)標(biāo)準(zhǔn)差要低,所以信度較高,進(jìn)而統(tǒng)計(jì)檢驗(yàn)力較高。(4)連續(xù)變量二分化會(huì)降低統(tǒng)計(jì)檢驗(yàn)力(Altman & Royston, 2006),此過程會(huì)導(dǎo)致很多信息丟失。假設(shè)研究學(xué)生身高和體重之間的關(guān)系,如果把收集到的數(shù)據(jù)只分為“高”“矮”兩類,那么身高和體重之間相關(guān)關(guān)系的測(cè)量會(huì)因?yàn)樯砀咦兞康淖儺愋越档投档蜏?zhǔn)確性。

      2?統(tǒng)計(jì)檢驗(yàn)力分析的組成部分

      統(tǒng)計(jì)檢驗(yàn)力分析的主要組成部分為:效應(yīng)量、樣本量、第一類錯(cuò)誤率(α)和第二類錯(cuò)誤率(β)。各成分對(duì)統(tǒng)計(jì)檢驗(yàn)力的影響在已有文獻(xiàn)中已有不少討論與總結(jié)(參見吳艷,溫忠麟,2011;

      溫忠麟,范息濤,葉寶娟,陳宇帥,2016;

      鄭昊敏,溫忠麟,吳艷,2011),在本文中將不做重復(fù)說明與討論,只在說明此四部分間基本關(guān)系的基礎(chǔ)上,再做一些補(bǔ)充。

      四成分之間的基本關(guān)系如下:(1)效應(yīng)量和樣本量結(jié)合可得非中心參數(shù),即零假設(shè)樣本分布和備擇假設(shè)樣本分布之間的區(qū)別。效應(yīng)量可影響統(tǒng)計(jì)檢驗(yàn)力,兩總體分布的差異可以影響效應(yīng)量,進(jìn)而影響統(tǒng)計(jì)檢驗(yàn)力。當(dāng)差異增大時(shí),統(tǒng)計(jì)檢驗(yàn)力增大,反之亦然。(2)樣本量越大則統(tǒng)計(jì)檢驗(yàn)力越大。(3)隨著第一類錯(cuò)誤率的增大(例如從0.01到0.05),第二類錯(cuò)誤率會(huì)降低,所以統(tǒng)計(jì)檢驗(yàn)力(1-β)會(huì)升高。(4)與使用不同水平的情況類似,使用單側(cè)檢驗(yàn)或者雙側(cè)檢驗(yàn)也對(duì)統(tǒng)計(jì)檢驗(yàn)力有影響。在同一自由度下,單側(cè)檢驗(yàn)比雙側(cè)檢驗(yàn)要更加具有統(tǒng)計(jì)檢驗(yàn)力。(5)當(dāng)變異性增大時(shí),統(tǒng)計(jì)檢驗(yàn)力會(huì)變?nèi)酢@缬捎谟绊懕辉囬g差異的因素得到了控制,重復(fù)實(shí)驗(yàn)設(shè)計(jì)的統(tǒng)計(jì)檢驗(yàn)力更高。

      在計(jì)算效應(yīng)量時(shí),觀察值(例如1,2)和變異性(例如s)都假設(shè)與其真實(shí)的參數(shù)值(例如μ1,μ2和σ)相等。然而這些真實(shí)的參數(shù)值很難測(cè)得,所以需要估計(jì)效應(yīng)量的值。Howell(2017)提到三種估計(jì)效應(yīng)量的方法:(1)根據(jù)先前的研究來決定效應(yīng)量。具體來說,先前的研究可以提供樣本均值和標(biāo)準(zhǔn)差的相關(guān)信息,這些信息可以用來作為其他研究中假定可以體現(xiàn)實(shí)驗(yàn)處理效應(yīng)的參數(shù)值的參考。(2)在沒有相似的先前研究時(shí),效應(yīng)量的估計(jì)則應(yīng)建立在個(gè)人評(píng)估的基礎(chǔ)上,即研究者主觀認(rèn)為的重要差異的大?。é?-μ2)。假如研究者想研究一種減肥藥,他們決定此種減肥藥有效的標(biāo)準(zhǔn)為可以使個(gè)體減重5 kg,那么減肥前后的差異(5 kg)就可以用來計(jì)算效應(yīng)量。此選定的差異值可以在正式實(shí)驗(yàn)之前通過試驗(yàn)研究(pilot study)來獲取經(jīng)驗(yàn)。例如在社會(huì)心理學(xué)研究中,研究者經(jīng)常會(huì)研究一些特別新奇的問題,所以他們會(huì)在正式研究之前來做試驗(yàn)研究得到可能有實(shí)驗(yàn)處理效應(yīng)的差異值。這個(gè)方法不僅可以用來估計(jì)效應(yīng)量,也可以幫助研究者找出錯(cuò)誤,從而避免人力物力的浪費(fèi)。(3)Cohen指導(dǎo)值(表1)(Cohen, 1988, 1992)。

      根據(jù)不同的效應(yīng)量水平,研究者可以計(jì)算出在某一顯著性水平下達(dá)到某檢驗(yàn)力的樣本量的范圍。通過10000個(gè)研究的元分析發(fā)現(xiàn)平均效應(yīng)量為0.5(Lipsey & Wilson, 1993),一般推薦研究者為達(dá)到足夠統(tǒng)計(jì)檢驗(yàn)力的效應(yīng)量為0.8(Lenth, 2001)。

      在以上三種方法中,方法(1)是最為推薦的,當(dāng)方法(1)和方法(2)都不可用時(shí)才根據(jù)方法(3)來估計(jì)效應(yīng)量,其原因?yàn)榇朔椒ㄖ腥齻€(gè)水平在一定程度上說為任意制定的(Howell, 2017)。并且Lenth(2001)提出研究者不能只依據(jù)計(jì)算效應(yīng)量時(shí)的分子和分母的比,也應(yīng)依據(jù)分子和分母本身的數(shù)值,因?yàn)樵谙惹疤岬降臏p肥例子中,研究者不僅應(yīng)該注重被試服藥前后體重的差和樣本標(biāo)準(zhǔn)差的比,也應(yīng)注重被試服藥前后體重本身數(shù)值的差,更進(jìn)一步地說,應(yīng)注重服藥前后體重本身的數(shù)值。

      3?統(tǒng)計(jì)檢驗(yàn)力分析的兩大類型

      3.1?先驗(yàn)檢驗(yàn)力分析

      統(tǒng)計(jì)檢驗(yàn)力分析是實(shí)驗(yàn)設(shè)計(jì)中的重要的一部分,此分析可以幫助研究者更加深入地思考如何開展該研究,例如思考如何對(duì)實(shí)驗(yàn)設(shè)計(jì)進(jìn)行優(yōu)化。由于假設(shè)檢驗(yàn)在社會(huì)和行為科學(xué)中的實(shí)證研究有著非常廣泛的應(yīng)用,在實(shí)驗(yàn)研究開始之前研究者通常要對(duì)研究做出統(tǒng)計(jì)檢驗(yàn)力分析來確定能夠檢測(cè)到統(tǒng)計(jì)學(xué)差異的必要樣本量(吳艷,溫忠麟,2011)。一些研究人員不重視對(duì)研究進(jìn)行統(tǒng)計(jì)檢驗(yàn)力分析,他們?cè)谘芯康倪^程中發(fā)放數(shù)以百計(jì),甚至數(shù)以千計(jì)的問卷來收集數(shù)據(jù),然而事實(shí)上,這些研究不需要如此之大的樣本量,這樣就造成了人力物力的浪費(fèi),然而這些浪費(fèi)只需要進(jìn)行先驗(yàn)檢驗(yàn)力分析(priori power analysis)就可以避免。所以,一個(gè)合理的樣本數(shù)量在實(shí)驗(yàn)設(shè)計(jì)中是非常重要的,特別是在經(jīng)費(fèi)緊張或者需要人類作為被試的情況下。

      3.2?后驗(yàn)檢驗(yàn)力分析

      后驗(yàn)檢驗(yàn)力分析(post-hoc power analysis)是在數(shù)據(jù)收集和分析之后進(jìn)行的統(tǒng)計(jì)檢驗(yàn)力分析。當(dāng)樣本量和效應(yīng)量(effect size)都已知的情況下,統(tǒng)計(jì)檢驗(yàn)力可以在某個(gè)指定的顯著性水平(significance level)(例如0.05,0.01)下計(jì)算得到。很多科學(xué)家推薦進(jìn)行事后分析,特別是在研究結(jié)果不顯著以及效應(yīng)量分析為中和大時(shí)(吳艷,溫忠麟,2011;Lenth, 2001)。

      然而,在實(shí)際操作中存在不少不恰當(dāng)使用后驗(yàn)檢驗(yàn)力分析的情況。一些研究者認(rèn)為統(tǒng)計(jì)顯著性未達(dá)到(例如,p>0.05)且基于效應(yīng)量觀測(cè)值計(jì)算得到的統(tǒng)計(jì)檢驗(yàn)力值較高的情況為零假設(shè)為真提供了證據(jù),然而這種后驗(yàn)檢驗(yàn)力分析是不正確的。Hoenig和Heisey(2001)指出統(tǒng)計(jì)檢驗(yàn)力值是p值的1∶1函數(shù),一旦得知p值,那么計(jì)算所得的統(tǒng)計(jì)檢驗(yàn)力值也就不再提供新的信息。并且此1∶1函數(shù)使得非顯著p值與低統(tǒng)計(jì)檢驗(yàn)力值相對(duì)應(yīng)(圖1)。當(dāng)p值為0.05時(shí),相對(duì)應(yīng)的統(tǒng)計(jì)檢驗(yàn)力值為0.5。當(dāng)p值增大時(shí),統(tǒng)計(jì)檢驗(yàn)力觀測(cè)值則會(huì)降低,所以拒絕零假設(shè)的同時(shí)又有高后驗(yàn)檢驗(yàn)力值的情況是不可能的。例如,如果統(tǒng)計(jì)檢驗(yàn)力值1 為0.4,統(tǒng)計(jì)檢驗(yàn)力值2 為0.2,基于圖1它們分別對(duì)應(yīng)的p值大約為0.075和0.225。所以越高的統(tǒng)計(jì)檢驗(yàn)力值代表了越大拒絕零假設(shè)的幾率,而不是為證明零假設(shè)為真提供更多的證據(jù)。

      后驗(yàn)檢驗(yàn)力分析的另一個(gè)應(yīng)用為得出可檢測(cè)效應(yīng)量(detectable effect size),此效應(yīng)量可根據(jù)變異性和預(yù)期統(tǒng)計(jì)檢驗(yàn)力(例如0.8)計(jì)算而得。此后驗(yàn)檢驗(yàn)力分析應(yīng)用的支持者認(rèn)為根據(jù)此方法得到的效應(yīng)量為真實(shí)效應(yīng)量的上限,即真實(shí)的效應(yīng)量越是接近可檢測(cè)效應(yīng)量,那么零假設(shè)為真的可能性則越大。然而使用后驗(yàn)檢驗(yàn)力分析來計(jì)算可檢測(cè)效應(yīng)量是不科學(xué)的。第一,在同等顯著性水平下,若兩個(gè)實(shí)驗(yàn)的結(jié)果均不顯著、兩總體均值差和樣本量均相同,且如果(假設(shè)為Z檢驗(yàn))Z1>Z2,則標(biāo)準(zhǔn)差σ1>σ2。因?yàn)榭蓹z測(cè)效應(yīng)量可以通過預(yù)期統(tǒng)計(jì)檢驗(yàn)力(例如0.8)和觀測(cè)標(biāo)準(zhǔn)差的值(例如σ1,σ2)計(jì)算而得,那么第一個(gè)實(shí)驗(yàn)的可檢測(cè)效應(yīng)量應(yīng)小于第二個(gè)實(shí)驗(yàn)的相應(yīng)值,又由于σ1<σ2,那么第一個(gè)實(shí)驗(yàn)中的總體均值差要小于第二個(gè)實(shí)驗(yàn)的相應(yīng)值。因?yàn)閆1>Z2且具有統(tǒng)計(jì)顯著性的兩總體均值差是真實(shí)差值的上限,那么真實(shí)差值越接近具有統(tǒng)計(jì)顯著性的差值,則拒絕零假設(shè)的可能性越大。第二,如果兩實(shí)驗(yàn)在同等統(tǒng)計(jì)顯著性水平和樣本量下都有非顯著的實(shí)驗(yàn)結(jié)果,且Z1>Z2,那么估計(jì)效應(yīng)量應(yīng)為:效應(yīng)量1>效應(yīng)量2,假設(shè)兩實(shí)驗(yàn)的標(biāo)準(zhǔn)差相等,那么要想達(dá)到理想的統(tǒng)計(jì)檢驗(yàn)力水平,可檢測(cè)效應(yīng)量應(yīng)相等。所以越接近真實(shí)效應(yīng)量的值越代表能拒絕零假設(shè)。另外,用基于標(biāo)準(zhǔn)差觀測(cè)值來計(jì)算可檢測(cè)均值差異也是不可取的,因?yàn)槲覀円矐?yīng)考慮到標(biāo)準(zhǔn)差的變異性。

      在研究完成之后再修改統(tǒng)計(jì)檢驗(yàn)力是很難的,后驗(yàn)檢驗(yàn)力分析永遠(yuǎn)不可以代替事前分析。盡管對(duì)于事后分析的結(jié)果有時(shí)會(huì)有誤解,但是如果研究者可以正確解釋該結(jié)果,那么對(duì)未來的研究是非常有利的,例如研究者可能得出使用不同的顯著性水平更加合適(用0.05而不是0.01)或者發(fā)現(xiàn)整個(gè)實(shí)驗(yàn)設(shè)計(jì)存在缺陷而需要重新設(shè)計(jì)。

      3.3?存在的問題

      在研究者為復(fù)雜實(shí)驗(yàn)設(shè)計(jì)做統(tǒng)計(jì)檢驗(yàn)力分析時(shí)可能會(huì)遇到一些實(shí)際問題。第一,當(dāng)研究中的自變量有多組時(shí),需要調(diào)整顯著性水平來控制整體第一類錯(cuò)誤率。例如如果使用Holm-Bonferroni方法來控制第一類錯(cuò)誤率,那么統(tǒng)計(jì)檢驗(yàn)力分析則變得復(fù)雜起來。Holm-Bonferroni矯正會(huì)導(dǎo)致第二類錯(cuò)誤增多,因?yàn)殡S著對(duì)比對(duì)數(shù)的增多,統(tǒng)計(jì)檢驗(yàn)力會(huì)降低。例如如果我們需要對(duì)比5組,即共有10組對(duì)比,當(dāng)設(shè)顯著性水平為0.05時(shí),即第一類錯(cuò)誤率為0.05,在Holm-Bonferroni矯正之后,α=0.005,可能導(dǎo)致第二類錯(cuò)誤率升高。

      第二,當(dāng)模型很復(fù)雜時(shí)沒有統(tǒng)一的方法做出相應(yīng)的統(tǒng)計(jì)檢驗(yàn)力分析。例如在混合線性模型(linear mixed model)中,相對(duì)來說固定效應(yīng)(fixed effects)的統(tǒng)計(jì)檢驗(yàn)力分析比隨機(jī)效應(yīng)(random effects)或者固定效應(yīng)與隨機(jī)效應(yīng)混合在一起時(shí)要容易分析。并且若考慮到交互作用或協(xié)方差,模型會(huì)變得更加復(fù)雜。然而變量之間的交互對(duì)研究者非常重要,但是在統(tǒng)計(jì)檢驗(yàn)力分析軟件中又很難把這一部分添加進(jìn)去,所以一個(gè)可以用來做統(tǒng)計(jì)檢驗(yàn)力分析的通用且準(zhǔn)確的方法是很重要的。

      第三,統(tǒng)計(jì)檢驗(yàn)力分析的結(jié)果無法泛化。一旦實(shí)驗(yàn)的研究方法、實(shí)驗(yàn)設(shè)計(jì)或者統(tǒng)計(jì)方法改變,統(tǒng)計(jì)檢驗(yàn)力分析就需要重新計(jì)算。并且通過檢驗(yàn)力分析所得的樣本量為理論上可行樣本量,但針對(duì)某些特定統(tǒng)計(jì)方法或?qū)嶋H情境,此樣本量可能并不夠,例如邏輯回歸分析(logistic regression analyses)就需要非常大的樣本量,研究者在實(shí)驗(yàn)開始之前通過相應(yīng)的統(tǒng)計(jì)檢驗(yàn)力分析來確定的樣本量對(duì)于邏輯回歸分析而言可能依然不夠。如果樣本量不夠,由此而得的研究結(jié)論則不可信。所以在統(tǒng)計(jì)檢驗(yàn)力分析之外,研究者也需要考慮到現(xiàn)實(shí)因素。另外,因?yàn)榻y(tǒng)計(jì)檢驗(yàn)力分析是建立在一些假設(shè)和猜想上的,且考慮到缺失值的問題,研究者采用的樣本數(shù)應(yīng)該比計(jì)算而得的樣本數(shù)在合理范圍內(nèi)稍大。

      第四,用來計(jì)算統(tǒng)計(jì)檢驗(yàn)力的軟件也存在一些問題:(1)可以用來計(jì)算統(tǒng)計(jì)檢驗(yàn)力的軟件有限,通常使用的只有: SamplePower, GPower, PASS, SAS, R和Optimal Design;(2)這些軟件大部分都比較昂貴,盡管有的大學(xué)提供使用密鑰,但是對(duì)于老師學(xué)生以及很多研究者來說還是無法方便地使用;(3)有一些軟件不具備在復(fù)雜實(shí)驗(yàn)設(shè)計(jì)下簡(jiǎn)便計(jì)算統(tǒng)計(jì)檢驗(yàn)力的能力,并且無法在模型中加入交互作用;(4)這些軟件可以進(jìn)行的統(tǒng)計(jì)檢驗(yàn)力分析類型有限,例如計(jì)算多層次統(tǒng)計(jì)檢驗(yàn)力可以用Optimal Design或者PASS,選擇并不多,但前者只有Windows版本,而后者又相當(dāng)之昂貴。這些因素都限制了統(tǒng)計(jì)檢驗(yàn)力分析的應(yīng)用與普及。

      4?多層模型統(tǒng)計(jì)檢驗(yàn)力分析及Optimal Design實(shí)現(xiàn)

      多層模型,顧名思義涉及到多個(gè)層次的數(shù)據(jù),例如研究者研究在某一大學(xué)中使用幻燈片教學(xué)是否對(duì)大一學(xué)生的數(shù)學(xué)學(xué)習(xí)有幫助這一問題,收集到的數(shù)據(jù)可以分為不同的層次。學(xué)生的年齡、性別、數(shù)學(xué)成績(jī)等都是學(xué)生本身的變量,而專業(yè)的規(guī)模、男女比例、教學(xué)所使用教學(xué)樓的地理位置等是專業(yè)層次的變量,再往高層次來看,學(xué)校的規(guī)模、地理位置、是否為211或985等因素為學(xué)校層級(jí)的變量。如此數(shù)據(jù)在多層模型中發(fā)生了嵌套。多層模型分析方法很多,本文著重統(tǒng)計(jì)檢驗(yàn)力的分析方法。在此以包含一個(gè)隨機(jī)截距和一個(gè)隨機(jī)斜率的多層線性回歸模型為例來展示檢驗(yàn)力分析的過程:

      假設(shè)研究者研究在某一大學(xué)中使用幻燈片教學(xué)是否對(duì)于大一新生的數(shù)學(xué)學(xué)習(xí)有幫助這一問題,大一新生被隨機(jī)分配在實(shí)驗(yàn)組(使用幻燈片教學(xué))或者控制組(不使用幻燈片教學(xué)),研究者設(shè)定實(shí)驗(yàn)區(qū)塊(block)為不同學(xué)生所學(xué)的不同專業(yè)。因此,在每一個(gè)專業(yè)中,新生會(huì)隨機(jī)分配到使用或不使用幻燈片教學(xué)的班級(jí)中。

      如果不考慮協(xié)變量,模型使用Raudenbush和Bryk(1992)注釋為:

      下面使用Optimal Design(Radudenbush, 2011)來展示多層次統(tǒng)計(jì)檢驗(yàn)力的過程。首先利用此軟件及模型可以計(jì)算在研究者期望達(dá)到的統(tǒng)計(jì)檢驗(yàn)力水平下所需的樣本量。其所需要設(shè)定的參數(shù)有:(1)顯著性水平(α=0.05);(2)預(yù)期統(tǒng)計(jì)檢驗(yàn)力(β=0.80);(3)樣本量/簇大?。ù龥Q定);(4)被協(xié)方差解釋的方差大?。≧2);(5)被區(qū)塊解釋的方差大?。˙);(6)效應(yīng)量(Δ);(7)效應(yīng)量變異性(σ2)。

      假設(shè)研究者預(yù)期使得專業(yè)為區(qū)塊可解釋40%的結(jié)果的變異性,如果使用一個(gè)隨機(jī)效應(yīng)模型且將效應(yīng)量變異性設(shè)定為0.05時(shí)(如果研究者使用的是固定效應(yīng)模型,效應(yīng)量變異性應(yīng)設(shè)定為0),并且在先前設(shè)定信息的基礎(chǔ)上,假如基于試驗(yàn)研究,研究者預(yù)期使用幻燈片的學(xué)生比不使用幻燈片的學(xué)生的表現(xiàn)要好0.2個(gè)標(biāo)準(zhǔn)差單位,也就是說設(shè)定效應(yīng)量為0.2。所以,當(dāng)研究者想在達(dá)到0.8的統(tǒng)計(jì)檢驗(yàn)力并且從每一個(gè)專業(yè)挑選30個(gè)學(xué)生的情境下能探測(cè)到此效應(yīng)量時(shí),他們一共需要多少個(gè)專業(yè)?選擇Person randomized trials → multisite(blocked) trials → Power on y axis → power vs. total number of sites(J),將已設(shè)定的參數(shù)輸入Optimal Design,基于圖2,可以看出需要28個(gè)專業(yè),即一共需要840個(gè)被試。

      如果考慮協(xié)變量,假設(shè)基于一個(gè)基線調(diào)查(baseline survey)(例如IQ,SAT, ACT 等的測(cè)量),前測(cè)(pretest) 可以解釋結(jié)果的60%的變異性,如果我們把協(xié)變量(IQ)也包括在模型里,可計(jì)算得一共需要19個(gè)專業(yè)(圖3),即一共需要570個(gè)被試,比不包括協(xié)變量時(shí)少了270個(gè)被試,此模型為:

      其中假設(shè)IQ可解釋學(xué)生數(shù)學(xué)成績(jī)中60%的變異性。

      其次,使用Optimal Design還可以計(jì)算效應(yīng)量。例如,設(shè)定前測(cè)可以解釋結(jié)果的60%的變異性,如果研究者只能從15個(gè)專業(yè)中選取被試,并且每個(gè)專業(yè)選取30人,那么如果想要達(dá)到0.8的統(tǒng)計(jì)檢驗(yàn)力至少需要的效應(yīng)量是多大?在Optimal Design中需設(shè)定的參數(shù)為:(1)顯著性水平(α=0.05);(2)預(yù)期統(tǒng)計(jì)檢驗(yàn)力(β=0.80);(3)樣本量/簇大?。?5個(gè)專業(yè),每個(gè)專業(yè)選取30人);(4)被協(xié)方差解釋的方差大?。≧2);(5)被區(qū)塊解釋的方差大?。˙);(6)效應(yīng)量(Δ)(待計(jì)算);(7)效應(yīng)量變異性(σ2)。

      在Optimal Design中選擇Person randomized trials→multisite(blocked) trials→MDES on y-axis→MDES vs. number of clusters(J)。 當(dāng)只能從15個(gè)專業(yè)中選被試時(shí), 效應(yīng)量大約為0.29(圖4)。 如果在此分析中考慮協(xié)方差, 效應(yīng)量大約為0.23(圖5)。

      5?總結(jié)與建議

      統(tǒng)計(jì)檢驗(yàn)力分析是科學(xué)研究中重要的組成部分,在研究開始之初,統(tǒng)計(jì)檢驗(yàn)力分析可以指導(dǎo)研究者確定研究樣本量以達(dá)到不同的效應(yīng)量或統(tǒng)計(jì)檢驗(yàn)力要求。在研究完成之后,統(tǒng)計(jì)檢驗(yàn)力分析可以幫助研究者印證或?qū)徱曪@著或不顯著的研究結(jié)果,進(jìn)而指導(dǎo)研究者不拒絕零假設(shè)或者再增加被試量進(jìn)行進(jìn)一步的研究。

      在本科階段,所使用的教材中假設(shè)檢驗(yàn)相關(guān)章節(jié)已非常普及,但與此相關(guān)的統(tǒng)計(jì)檢驗(yàn)力分析、效應(yīng)量分析等知識(shí)章節(jié)并不常見,與此相關(guān)的教學(xué)也并不普及,有一些老師在教學(xué)過程中加入此方面相關(guān)知識(shí),但講解也并不深入。學(xué)生往往只知當(dāng)p值在小于0.01或者0.05時(shí)拒絕零假設(shè),說明不同實(shí)驗(yàn)處理之間存在顯著差異,或當(dāng)p值大于設(shè)定的顯著性水平時(shí)不拒絕零假設(shè),說明不同實(shí)驗(yàn)處理之間不存在顯著差異。但更進(jìn)一步,學(xué)生不知如何解釋p值、置信區(qū)間、統(tǒng)計(jì)檢驗(yàn)力和產(chǎn)生研究結(jié)果的原因。之后碩士及博士階段,隨著科研難度及數(shù)量的增加,如果研究者不了解統(tǒng)計(jì)檢驗(yàn)力分析相關(guān)知識(shí)可能會(huì)在研究開始之前無所適從,例如究竟需要多少被試呢?在這種情況下,往往研究者會(huì)在未設(shè)定樣本量的情況下開始實(shí)驗(yàn),直到研究結(jié)果顯著時(shí)停止收集數(shù)據(jù),從而影響研究結(jié)果的可靠性。因此,從教學(xué)上來說,從本科階段開始,要逐步普及統(tǒng)計(jì)檢驗(yàn)力分析的重要性及方法,為日后科研工作做出鋪墊。

      在研究過程中,研究者應(yīng)謹(jǐn)慎、正確地進(jìn)行統(tǒng)計(jì)檢驗(yàn)力分析。它可以幫助科研人員確定樣本量的大小,從而避免人力物力的浪費(fèi),也可以在一定被試量下得出統(tǒng)計(jì)檢驗(yàn)力的信息,例如,如果只有75個(gè)可用的被試,而所得統(tǒng)計(jì)檢驗(yàn)力非常低,則沒有必要進(jìn)行這樣的研究。在論文發(fā)表時(shí)或者科研基金申請(qǐng)時(shí),通常都要求研究者說明統(tǒng)計(jì)檢驗(yàn)力的相關(guān)信息,統(tǒng)計(jì)檢驗(yàn)力的高低雖不是判斷研究好壞的唯一標(biāo)準(zhǔn),但是高的統(tǒng)計(jì)檢驗(yàn)力是使得研究結(jié)論可靠的重要的一方面。

      參考文獻(xiàn)

      溫忠麟, 范息濤, 葉寶娟, 陳宇帥(2016). 從效應(yīng)量應(yīng)有的性質(zhì)看中介效應(yīng)量的合理性. 心理學(xué)報(bào), 48(4), 435-443.

      吳艷, 溫忠麟(2011). 與零假設(shè)檢驗(yàn)有關(guān)的統(tǒng)計(jì)分析流程. 心理科學(xué), 34(1), 230-234.

      鄭昊敏, 溫忠麟, 吳艷(2011). 心理學(xué)常用效應(yīng)量的選用與分析. 心理科學(xué)進(jìn)展, 19(12), 1868-1878.

      Aguinis, H., Pierce, C. A., & Culpepper, S. A.(2009). Scale coarseness as a methodological artifact: Correcting correlation coefficients attenuated from using coarse scales. Organizational Research Methods, 12(4), 623-652.

      Altman, D. G. & Royston, P.(2006). The cost of dichotomising continuous variables. BMJ, 332(7549), 1080.

      Raudenbush, S. W & Bryk, A. S.(1992). Hierarchical linear models: applications and data analysis methods. Chicago, IL: Sage.

      Coe, R.(2002). Its the effect size, stupid: what effect size is and why it is important. Retrieved May 25, 2018, from: https://www. leeds. ac. uk/educol/documents/00002182. htm.

      Cohen, J.(1988). Statistical power analysis for the behavioral sciences. Hillsdale, NJ: Lawrence Erlbaum Associates.

      Cohen, J.(1992). A power primer. Psychological Bulletin, 112(1), 155-159.

      Hoenig, J. M., & Heisey, D. M.(2001). The abuse of power: the pervasive fallacy of power calculations for data analysis. The American Statistician, 55(1), 19-24.

      Howell, D. C.(2017). Fundamental statistics for the behavioral sciences. Boston, MA: Cengage Learning.

      Lenth, R. V.(2001). Some practical guidelines for effective sample size determination. The American Statistician, 55(3), 187-193.

      Lipsey, M. W., & Wilson, D. B.(1993). The efficacy of psychological, educational, and behavioral treatment: Confirmation from meta-analysis. American Psychologist, 48(12), 1181-1209.

      Maxwell, S. E., Delaney, H. D., & Kelley, K.(2018). Designing experiments and analyzing data: A model comparison perspective. New York: Routledge.

      Perugini, M., Gallucci, M., & Costantini, G.(2018). A Practical primer to power analysis for simple experimental designs. International Review of Social Psychology, 31(1), ?1-23.

      Raudenbush, S. W., et al.(2011). Optimal Design Software for Multi-level and Longitudinal Research. Retrieved May 21, 2018, from http://www. wtgrantfoundation. org.

      猜你喜歡
      假設(shè)檢驗(yàn)
      假設(shè)檢驗(yàn)結(jié)果的對(duì)立性分析
      一種求解假設(shè)檢驗(yàn)拒絕域和計(jì)算p-值的系統(tǒng)化方法
      統(tǒng)計(jì)推斷的研究
      雙冪變換下正態(tài)線性回歸模型參數(shù)的假設(shè)檢驗(yàn)
      Primary Question and Hypothesis Testing in Randomized Controlled Clinical Trials
      統(tǒng)計(jì)學(xué)教學(xué)中關(guān)于假設(shè)檢驗(yàn)問題探討
      屏东县| 雷州市| 通州区| 海门市| 资阳市| 克拉玛依市| 九龙坡区| 苗栗县| 谷城县| 达孜县| 蓝山县| 泊头市| 贵德县| 安平县| 漳平市| 新郑市| 德安县| 武胜县| 延川县| 安远县| 湘潭市| 蒙城县| 开远市| 渭南市| 文水县| 洪雅县| 柳江县| 炎陵县| 句容市| 丹江口市| 舒城县| 阿克苏市| 襄垣县| 鹰潭市| 大同市| 安徽省| 六枝特区| 滨海县| 泰州市| 腾冲县| 永寿县|