沈光輝,范涌峰,陳 婷
教育研究中的值使用:問題及對(duì)策──兼談效應(yīng)量的使用
沈光輝1,2,范涌峰2,3,陳 婷2,3
(1.西南大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,重慶 400715;2.中國基礎(chǔ)教育質(zhì)量監(jiān)測協(xié)同創(chuàng)新中心西南大學(xué)分中心,重慶 400715;3.西南大學(xué)教育學(xué)部,重慶 400715)
值;問題;假設(shè)檢驗(yàn);效應(yīng)量
值在統(tǒng)計(jì)推斷中起著重要的作用,被廣泛地應(yīng)用于各個(gè)學(xué)科領(lǐng)域.然而,近年來值似乎卷入了一場危機(jī)風(fēng)波,連續(xù)被多個(gè)權(quán)威期刊禁用,如2015年2月雜志宣布禁止使用值,并且不再使用置信區(qū)間,該雜志認(rèn)為需要充足的描述性統(tǒng)計(jì),其中包括效應(yīng)量[1].2018年1月22日美國頂級(jí)政治學(xué)術(shù)期刊宣布從2018年第26期起禁用值.這說明,人們越來越認(rèn)識(shí)到值使用中存在的問題.
值問題爭論已久,引起了統(tǒng)計(jì)、心理、體育、教育等領(lǐng)域?qū)<业年P(guān)注.美國統(tǒng)計(jì)學(xué)會(huì)申明了正確使用值的6條原則來規(guī)范值的使用[6].Cohen指出,在經(jīng)歷了四十多年的批評(píng)后,研究者普遍還是錯(cuò)誤地理解值,對(duì)值的使用再次進(jìn)行了批判[4].美國心理協(xié)會(huì)考慮了值的使用問題,并從1994年開始正式鼓勵(lì)作者報(bào)告效應(yīng)大小[7].焦璨對(duì)《心理學(xué)報(bào)》《心理科學(xué)》兩種雜志在1998—2007年使用虛無假設(shè)檢驗(yàn)的情況進(jìn)行統(tǒng)計(jì),發(fā)現(xiàn)兩種雜志10年間發(fā)表了論文4?115篇,其中使用虛無假設(shè)檢驗(yàn)方法佐證研究結(jié)論的有2?752篇,占67%,心理學(xué)報(bào)的使用率高達(dá)84.8%.而且“唯有顯著性結(jié)論的論文才能得到發(fā)表”已成為心理學(xué)科的行業(yè)標(biāo)準(zhǔn)[2],其中值起到?jīng)Q定性作用.然而,令人諷刺的是Fisher引入值并不是想把它作為一個(gè)解釋結(jié)果的決定性指標(biāo),而是當(dāng)作判斷時(shí)的一個(gè)非正式的參考指標(biāo)來判斷結(jié)果是否值得繼續(xù)研究[8].朱為模指出,在運(yùn)動(dòng)科學(xué)領(lǐng)域,很多頂級(jí)期刊根據(jù)值小于0.05(有時(shí)小于0.01)直接下結(jié)論,然而大樣本會(huì)導(dǎo)致幾乎所有的比較都是顯著的,這使得“顯著”這個(gè)詞本身毫無意義.結(jié)合Cohen的觀點(diǎn)總結(jié)了7點(diǎn)建議,包括不能僅根據(jù)值下結(jié)論,報(bào)告效應(yīng)值大小,結(jié)合臨床或者實(shí)際意義進(jìn)一步解釋效應(yīng)大小等.并強(qiáng)烈建議雜志的作者、審稿人和編輯遵循這些建議[9].Coe建議使用效應(yīng)量,但是教育研究中很少使用效應(yīng)量[10],Coe認(rèn)為研究者很少使用效應(yīng)量的原因是計(jì)算效應(yīng)大小的公式并沒有出現(xiàn)在大多數(shù)統(tǒng)計(jì)教科書中(元分析除外),也沒有出現(xiàn)在許多統(tǒng)計(jì)計(jì)算機(jī)軟件包中,而且在標(biāo)準(zhǔn)的研究方法課程中也很少教授.Coe解釋了什么是效應(yīng)量,如何計(jì)算效應(yīng)量,以及如何解釋效應(yīng)量等[7].王光明等對(duì)國內(nèi)教育領(lǐng)域4種CSSCI來源期刊進(jìn)行統(tǒng)計(jì),發(fā)現(xiàn)部分研究者對(duì)值的理解與認(rèn)識(shí)存在一定偏差,并進(jìn)一步對(duì)值問題進(jìn)行了思考[11].
然而,當(dāng)前中國教育研究中定量研究十分不足,占比僅14.34%[12],值在國內(nèi)教育領(lǐng)域更是沒有引起足夠的重視,通過對(duì)國內(nèi)37種教育類的(CSSCI)來源期刊的241篇文章進(jìn)行分析,發(fā)現(xiàn)值在教育研究中存在諸多濫用、誤用的現(xiàn)象,進(jìn)行差異分析時(shí)很少計(jì)算效應(yīng)量.在進(jìn)行教育研究時(shí)常常需要找出差異的大小,而值卻并不能闡釋差異的大小,效應(yīng)量正好可以彌補(bǔ)值使用的這一缺陷,通過值用來做定性分析,效應(yīng)量用來做定量分析,將定性與定量分析結(jié)合,才能使研究結(jié)果更具說服力.因此,厘清值使用中常見問題,在教育研究的統(tǒng)計(jì)推斷中引入效應(yīng)量,對(duì)于提高教育研究的科學(xué)性具有重要意義.
在中國知網(wǎng)中以“值”為主題詞檢索,共檢索出值出現(xiàn)3次及以上屬于《中國社會(huì)科學(xué)引文索引(CSSCI)來源和收錄集刊(2017—2018)目錄》的教育類(37種期刊)的文章246篇.把文章中含有“值”但并非假設(shè)檢驗(yàn)中的值的文章刪去5篇,最終可用文獻(xiàn)241篇,文章的時(shí)間跨度為1998年11月—2017年3月.
對(duì)這241篇文獻(xiàn)進(jìn)行全文閱讀分析,可以得出文獻(xiàn)中使用假設(shè)檢驗(yàn)方法的具體情況(見表1).94篇文章使用了均值檢驗(yàn)(包括單樣本檢驗(yàn)、獨(dú)立樣本檢驗(yàn)、配對(duì)樣本檢驗(yàn)),占文章總數(shù)的39%;66篇文章使用了回歸分析,占比27.39%;53篇文章使用了方差分析(檢驗(yàn)),占比21.99%;48篇文章使用了相關(guān)系數(shù)檢驗(yàn),占比19.92%;30篇文章使用了卡方檢驗(yàn),占比12.45%;68篇文章使用了其它檢驗(yàn)方法,占比28.22%.發(fā)現(xiàn)國內(nèi)教育領(lǐng)域在做統(tǒng)計(jì)推斷時(shí)常用的假設(shè)檢驗(yàn)方法是均值檢驗(yàn)、回歸分析、方差分析(檢驗(yàn))、相關(guān)系數(shù)檢驗(yàn)、卡方檢驗(yàn)等.其中使用均值檢驗(yàn)的文章最多,超過了文章總數(shù)的三分之一.對(duì)這些文獻(xiàn)中的值使用情況進(jìn)行分析,發(fā)現(xiàn)其存在的主要問題及不規(guī)范現(xiàn)象可以分為以下幾類:值的錯(cuò)誤表達(dá),根據(jù)值選擇顯著性水平,忽視“大樣本”對(duì)值的影響,值在給定顯著性水平附近沒有做解釋說明,只報(bào)道值或者均值(見表2).
表1 文獻(xiàn)中假設(shè)檢驗(yàn)方法的使用情況
表2 文獻(xiàn)中P值使用存在的問題及不規(guī)范現(xiàn)象
表3 P值錯(cuò)誤表達(dá)方式情況
2.3.1 忽視“大樣本”對(duì)值的影響
教育研究中的樣本數(shù)據(jù)通常是大樣本數(shù)據(jù),即樣本量大于等于30或者大于等于50.這里說的“大樣本”不是一般的大樣本,而是具有相當(dāng)大體量的樣本.例如,有兩篇文章的樣本量超過11?000,但是仍然用0.05做假設(shè)檢驗(yàn)的顯著性水平,并且通過了檢驗(yàn),這個(gè)結(jié)果是值得懷疑的.當(dāng)樣本量增大時(shí),值會(huì)減??;當(dāng)樣本量減小時(shí),值會(huì)增大.這也會(huì)導(dǎo)致大樣本研究的小效應(yīng)同小樣本研究的大效應(yīng)產(chǎn)生相同的值[13].所以樣本量很大時(shí),只根據(jù)值作推斷就容易導(dǎo)致錯(cuò)誤的結(jié)論.通常樣本量在抽樣方法合理的情況下,越大越好,因?yàn)樵龃髽颖玖繒?huì)同時(shí)降低犯第一類錯(cuò)誤和第二類錯(cuò)誤的概率,但是樣本量受時(shí)間、人力、經(jīng)費(fèi)等因素的限制,也不會(huì)過于龐大,樣本量不受限制也就失去了抽樣的意義[5].
2.3.2 忽視了“小樣本”對(duì)值的影響
由表2可以看出,有36篇文獻(xiàn)的值在給定的顯著性水平附近沒有做進(jìn)一步探討,值在給定顯著性水平附近時(shí),決策要慎重,不應(yīng)該輕易拒絕或者不拒絕原假設(shè).這種情況很有可能是“小樣本”造成的,這里提到的“小樣本”不是教科書中明確的小于30或者50,而是指選取的樣本量在教育研究中并不大,只有幾十個(gè)或者一百多個(gè).這個(gè)時(shí)候輕易下判斷很有可能得到錯(cuò)誤的結(jié)論.
當(dāng)值在給定的顯著性水平附近時(shí),進(jìn)行重復(fù)性試驗(yàn)可以讓結(jié)論更加穩(wěn)定.由于進(jìn)行多次實(shí)驗(yàn)時(shí),每一次實(shí)驗(yàn)數(shù)據(jù)都不同,可能會(huì)因?yàn)闃颖静煌嬖跈z驗(yàn)顯著與檢驗(yàn)不顯著的情況.所以,可以通過進(jìn)行重復(fù)性試驗(yàn)或者進(jìn)一步擴(kuò)大樣本來確保結(jié)論的穩(wěn)定性.進(jìn)行多次實(shí)驗(yàn)確保結(jié)果的穩(wěn)定性是值得提倡的,但是絕不能為了尋找小值而做多次實(shí)驗(yàn).當(dāng)然,也可以通過學(xué)科背景知識(shí)進(jìn)行一定的取舍.同時(shí),效應(yīng)量不受樣本的影響,可以很好地解決因樣本量帶來的麻煩,如大樣本數(shù)據(jù)得出小值的情況,效應(yīng)量就能更好地反應(yīng)差異或者相關(guān)的大小.
值、統(tǒng)計(jì)量、置信區(qū)間、效應(yīng)量和描述性統(tǒng)計(jì)結(jié)果是常用的信息,全面的報(bào)道總是更有說服力,也可以給讀者傳遞更多信息,讓讀者更容易自己去做判斷.美國心理學(xué)會(huì)的出版手冊()第六版在結(jié)果部分強(qiáng)調(diào):零假設(shè)檢驗(yàn)結(jié)果只是報(bào)告的起始部分,還需要報(bào)道效應(yīng)量、置信區(qū)間和更多的描述性統(tǒng)計(jì)結(jié)果來更全面地闡釋結(jié)果的含義;發(fā)表的最低要求是在測試假設(shè)的完整報(bào)告里要有適當(dāng)?shù)男?yīng)量和置信區(qū)間;要提到所有相關(guān)的結(jié)果,包括與期望背道而馳的結(jié)果;當(dāng)理論預(yù)測效應(yīng)大(或者具有統(tǒng)計(jì)學(xué)意義時(shí)),實(shí)際結(jié)果是小的效應(yīng)量(或統(tǒng)計(jì)學(xué)上不顯著的結(jié)果)時(shí),一定要報(bào)道該結(jié)果,不要隱藏那些看起來讓人不滿意的結(jié)果[19].當(dāng)表格中的數(shù)據(jù)很多時(shí)用顯著符號(hào)替代值可以理解,但是建議將在給定顯著性水平附近的值具體化;當(dāng)表格中數(shù)據(jù)量較小時(shí)建議還是將具體值呈現(xiàn)出來.
效應(yīng)量(effect size),一種度量效應(yīng)大小的指標(biāo).效應(yīng)量具有與測量單位無關(guān)、單調(diào)性、不受樣本容量的影響等基本性質(zhì)[20].效應(yīng)量可以解決值無法刻畫相關(guān)程度大小和差異大小的問題[11],也可以避免“值操控”現(xiàn)象[21].如溫忠麟等人認(rèn)為零假設(shè)顯著性檢驗(yàn)(NHST)仍然是大多數(shù)統(tǒng)計(jì)分析不可或缺的重要環(huán)節(jié),建議用效應(yīng)量來彌補(bǔ)值無法刻畫差異大小的問題[20].由此看來,在值使用中引入效應(yīng)量已逐漸為人們所認(rèn)同.然而,當(dāng)前效應(yīng)量在教育領(lǐng)域并沒有引起足夠的重視,在教育研究中進(jìn)行差異分析時(shí)很少使用效應(yīng)量.在上述統(tǒng)計(jì)的241篇教育研究文獻(xiàn)中,只有3篇文章在做差異分析時(shí)使用了效應(yīng)量.因此極有必要對(duì)效應(yīng)量的概念、教育研究中常用的效應(yīng)量公式及效應(yīng)大小的參考標(biāo)準(zhǔn)予以闡釋.
如前所述,國內(nèi)教育領(lǐng)域在做統(tǒng)計(jì)推斷時(shí)常用的假設(shè)檢驗(yàn)方法是均值檢驗(yàn)、回歸系數(shù)檢驗(yàn)、方差分析(檢驗(yàn))、相關(guān)系數(shù)檢驗(yàn)、卡方檢驗(yàn)等,為此,在教育研究中至少可以引入以下5類常用的效應(yīng)量.
方差分析中常用的效應(yīng)量有單因素方差分析中的效應(yīng)量和雙因素方差分析中的效應(yīng)量,其中雙因素方差分析的效應(yīng)量包括主效應(yīng)和交互效應(yīng)對(duì)應(yīng)的效應(yīng)量.這里只分析單因素方差分析,這些方法同樣適用于雙因素方差分析.
當(dāng)變量值超過兩個(gè)水平時(shí),用Cramér的[27]
對(duì)上述5類效應(yīng)量的大小給出參考指標(biāo),詳見表4.
表4 效應(yīng)量大小參考指標(biāo)
上文按照假設(shè)檢驗(yàn)方法類別,將教育領(lǐng)域中常用的效應(yīng)量分為5類.效應(yīng)量按統(tǒng)計(jì)意義可以分成如下3類:差異類(difference-type),相關(guān)類(correlation-type),組重疊(group-overlap)[28].那么,教育領(lǐng)域常用的5類效應(yīng)量按其統(tǒng)計(jì)意義可以劃分成相關(guān)類和差異類效應(yīng)量.其中,相關(guān)類效應(yīng)量包含5類中的4類:相關(guān)類、方差分析、卡方檢驗(yàn)、回歸方程所對(duì)應(yīng)的效應(yīng)量;差異類效應(yīng)量就是均值差異所對(duì)應(yīng)的效應(yīng)量.將5類效應(yīng)量分成相關(guān)類和差異類是為了便于與值結(jié)合做統(tǒng)計(jì)推斷.
值和效應(yīng)量綜合判斷方法有兩類:(1)相關(guān)類:統(tǒng)計(jì)學(xué)意義顯著,效應(yīng)量很小時(shí),決策時(shí)要慎重,教育研究中很多變量都存在一定的相關(guān)性,通常把非常微弱的相關(guān)性就當(dāng)成不相關(guān);統(tǒng)計(jì)學(xué)意義顯著,效應(yīng)量較大時(shí),認(rèn)為具有較大的相關(guān)性;統(tǒng)計(jì)學(xué)意義不顯著,效應(yīng)量很小時(shí),可以認(rèn)為沒有相關(guān)性;統(tǒng)計(jì)學(xué)意義不顯著,效應(yīng)量很大時(shí),考慮樣本量取得太少,需要增加樣本量來進(jìn)一步檢驗(yàn)統(tǒng)計(jì)學(xué)意義上的顯著性,然而在教育研究實(shí)驗(yàn)中一般都會(huì)取大樣本,所以這類情況很少發(fā)生.(2)差異類:統(tǒng)計(jì)學(xué)意義顯著,效應(yīng)量很小時(shí),決策時(shí)要慎重,要考慮細(xì)小的差異在教育研究中是否具有實(shí)際意義,教育中對(duì)實(shí)際效應(yīng)的要求往往是較高的,甚至是要能通過學(xué)生的表現(xiàn)體現(xiàn)出來,所以這種情況在教育研究中通常是不具備實(shí)際意義的;統(tǒng)計(jì)學(xué)意義顯著,效應(yīng)量較大時(shí),認(rèn)為具有較大的差異;統(tǒng)計(jì)學(xué)意義不顯著,效應(yīng)量很小時(shí),可以認(rèn)為沒有差異;統(tǒng)計(jì)學(xué)意義不顯著,效應(yīng)量很大時(shí),考慮懷疑樣本量是否取得全面,需要增加樣本量來進(jìn)一步檢驗(yàn)統(tǒng)計(jì)學(xué)意義上的顯著性,這類情況在研究中很少發(fā)生.
實(shí)際上值本身并沒有問題,由于值的不規(guī)范使用,導(dǎo)致部分研究者對(duì)值產(chǎn)生誤解,認(rèn)為根據(jù)值做出的決策結(jié)果時(shí)常出現(xiàn)錯(cuò)誤,進(jìn)而對(duì)值產(chǎn)生懷疑.任何一種方法都有它的使用前提和使用范圍,使用者必須科學(xué)地運(yùn)用研究方法.不應(yīng)該把值當(dāng)做金標(biāo)準(zhǔn)去做決策,應(yīng)該綜合考慮多種決策方法.引入效應(yīng)量是為了刻畫效應(yīng)大小,量化研究問題,但是在使用效應(yīng)量時(shí)不能走值的老路,不能死死盯住指標(biāo).效應(yīng)量的引入使得決策時(shí)多了一種手段,但是并不是所有問題都得給出效應(yīng)量,效應(yīng)量在有些領(lǐng)域行不通,如,行為科學(xué),Cohen也申明了使用效應(yīng)量大小存在一定的風(fēng)險(xiǎn).Hagen認(rèn)為Cohen的一些關(guān)于值的批評(píng)[4]是沒有根據(jù)的,因?yàn)镃ohen認(rèn)為虛無假設(shè)檢驗(yàn)存在一些邏輯和信息問題,這可能導(dǎo)致粗心的讀者認(rèn)為統(tǒng)計(jì)顯著性檢驗(yàn)比不用更糟糕,應(yīng)該被拋棄.雖然Cohen沒有這么說,但他的讀者可能會(huì)這么理解[31].總之,將值和效應(yīng)量結(jié)合使用會(huì)讓決策結(jié)果更加穩(wěn)定.
同樣要考慮實(shí)際需求.比如,在研究教育對(duì)經(jīng)濟(jì)的影響模型時(shí),如果某一變量沒有通過檢驗(yàn),但是保留它可以讓教育更大地促進(jìn)經(jīng)濟(jì)增長,那么仍然會(huì)選擇保留這一變量,這時(shí)就要以實(shí)際需求來衡量該模型是不是最佳.實(shí)踐中更看重需求,做預(yù)測就得看實(shí)際預(yù)測效果,做控制就得降低風(fēng)險(xiǎn),不同的需求會(huì)有不同的標(biāo)準(zhǔn),統(tǒng)計(jì)指標(biāo)需要與現(xiàn)實(shí)需求相結(jié)合.
統(tǒng)計(jì)可能是危險(xiǎn)的并可能被濫用[32],統(tǒng)計(jì)指標(biāo)只是一個(gè)研究工具,用統(tǒng)計(jì)指標(biāo)分析出來的結(jié)果雖然對(duì)研究決策起著重要的參考作用,但是絕不能把這個(gè)結(jié)果當(dāng)作唯一標(biāo)準(zhǔn).在醫(yī)學(xué)領(lǐng)域中假陽性結(jié)果時(shí)常出現(xiàn),醫(yī)生在做判斷時(shí)就不能只看統(tǒng)計(jì)指標(biāo)了,需要用數(shù)據(jù)說話,但是不唯數(shù)據(jù)論.教育學(xué)中指標(biāo)體系的建立經(jīng)常采用專家打分法,也有學(xué)者用因子分析法去確定指標(biāo)[33],這兩種方法都有著各自的優(yōu)缺點(diǎn),專家打分能更好地結(jié)合專業(yè)背景去確定指標(biāo),但是主觀性太強(qiáng);因子分析法具有客觀性,但是往往會(huì)舍棄一些影響很大、非常重要的變量.所以,應(yīng)該把統(tǒng)計(jì)指標(biāo)當(dāng)作一種參考.這樣看來,值和效應(yīng)量的結(jié)合,再融入學(xué)科背景知識(shí)等,多角度分析問題的方法就顯得非常重要.
[1] TRAFIMOW D, MARKS M. Editorial [J]. Basic Appl, Soc, Psych, 2015 (37): 1–2.
[2] 焦璨.心理學(xué)研究中假設(shè)檢驗(yàn)理論方法探析[M].北京:中國社會(huì)科學(xué)出版社,2014:14–15,2.
[3] NICKERSON R S. Null hypothesis significance testing: A review of an old and continuing controversy [J]. Psychological Methods, 2000, 5 (2): 241–301.
[4] COHEN J.The earth is round (<0.05) [J]. American Psychologist, 1994, 49 (12): 997.
[5] 賈俊平,何曉群,金勇進(jìn).統(tǒng)計(jì)學(xué)[M].4版.北京:中國人民大學(xué)出版社,2009:211,214.
[6] WASSERSTEIN R L, LAZAR N A. The ASA’s statement on-values: Context, process, and purpose [J]. The American Statistician, 2016, 70 (2): 129–133.
[7] COE R. It’s the effect size, stupid: What effect size is and why it is important [C]. Paper presented at the Annual Conference of the British Educational Research Association. London: the British Educational Research Association, 2002: 1–18.
[8] NUZZOR. Scientificmethod: Statistical errors [J]. Nature, 2014, 506 (7?487): 150–152.
[9] ZHUW. Sadly, the earth is still round (<0.05) [J]. Journal of Sport and Health Science, 2012, 1 (1): 9–11.
[10] ?KESELMAN H J, HUBERTY C J, LIX L M, et al. Statistical practices of educational researchers: An analysis of their ANOVA, MANOVA, and ANCOVA analyses [J]. Review of educational research, 1998, 68 (3): 350–386.
[11] 王光明,李健,張京順.教育實(shí)證研究中的值使用:問題、思考與建議[J].教育科學(xué)研究,2018(2):59–65.
[12] 范涌峰,宋乃慶.教育研究科學(xué)化:限度與突破[J].教育研究,2016(1):94–101.
[13] ?SIMON R. Confidenceintervals for reporting results of clinicaltrials [J]. Annals of Internal Medicine, 1986, 105 (3): 429–435.
[14] ?KIRT R E. Practicalsignificance: Aconcept whose time has come [J]. Education and Psychological Measurement, 1996, 56 (5): 746–759.
[15] 吳喜之.統(tǒng)計(jì)學(xué):從數(shù)據(jù)到結(jié)論[M].北京:中國統(tǒng)計(jì)出版社,2006:97.
[16] 陳章穎.生物醫(yī)學(xué)期刊中常見的值使用錯(cuò)誤[J].編輯學(xué)報(bào),2014,26(2):137–139.
[17] ?GARCIA-BERTHOU E, ALCARAZC. Incongruence between test statistics andValues in medical papers [J]. BMC Med Res Methodol, 2004, 28 (4): 13.
[18] ? KUFFNER T A, WALKER S G. Why are-values controversial [J/OL]. American Statistician, 2018: 1–3. (2018–01–26) [2019–01–02]. DOI: https://doi.org/10.1080/00031305.2016.1277161.
[19] ?AMERICAN PSYCHOLOGICAL ASSOCIATION. Publication manual [M]. Washington, DC: American Psychological Association, 2010: 33.
[20] 溫忠麟,范息濤,葉寶娟,等.從效應(yīng)量應(yīng)有的性質(zhì)看中介效應(yīng)量的合理性[J].心理學(xué)報(bào),2016,48(4):435–443.
[21] 周彥池,裴昌根.?dāng)?shù)學(xué)教育研究與實(shí)踐的熱點(diǎn)及趨勢——第二屆華人數(shù)學(xué)教育大會(huì)暨數(shù)學(xué)教育博士生論壇綜述[J].?dāng)?shù)學(xué)教育學(xué)報(bào),2016,25(6):93–95.
[22] ?LARRY V, HEDGES L V, OLKINI. Statisticalmethods for meta-analysis [M]. Orlando: Academic Press, 1985: 76–81.
[23] ?BORENSTEIN M, HEDGES L V, HIGGINS J P T, et al. Introduction to meta-analysis [M]. John Wiley & Sons, 2011: 27.
[24] ?Cohen J. Statisticalpower analysis for the behavioral sciences [M]. New York: Academic Press, 1977: 20,66–67,82,224–225.
[25] ?MCGRATH R E, MEYER G J. Wheneffect sizes disagree: The case of r and d [J]. Psychological Methods, 2006, 11 (4): 386–401.
[26] ?HEDGES L V. Distributiontheory for glass’s estimator of effect size and related estimators [J]. Journal of Educational Statistics, 1981, 6 (2): 107–128.
[27] ?COHENJ.Statistical power analysis for the behavioral sciences [M]. 2nd ed. Hillsdale, NJ: Erlbaum, 1988: 79–80,223–225,283–287,413–414.
[28] 鄭昊敏,溫忠麟,吳艷.心理學(xué)常用效應(yīng)量的選用與分析[J].心理科學(xué)進(jìn)展,2011,19 (12):1?868–1?878.
[29] ?COHENJ. Statistical power analysis [J]. Current Directions in Psychological Science, 1992, 1 (3): 98–101.
[30] 權(quán)朝魯.效果量的意義及測定方法[J].心理學(xué)探新,2003(2):39–44.
[31] ?HAGEN R L. In praise of the null hypothesis statistical test [J]. American Psychologist, 1997, 52 (1): 15–24.
[32] 季理真,章勤瓊.統(tǒng)計(jì)支配世界——漫談何為統(tǒng)計(jì)與統(tǒng)計(jì)何為[J].?dāng)?shù)學(xué)教育學(xué)報(bào),2015,24(2):10–11.
[33] 張和平,裴昌根,宋乃慶.小學(xué)生幾何直觀能力測評(píng)模型的構(gòu)建探究[J].?dāng)?shù)學(xué)教育學(xué)報(bào),2017,26(5):49–53.
UsingValue in Educational Research: Problems and Countermeasures——Concurrently Discussing about the Use of Effect Quantity
SHEN Guang-hui1, 2, FAN Yong-feng2, 3, CHEN Ting2, 3
(1. School of Mathematics and Statistics, Southwest University, Chongqing 400715, China;2. Southwest University Branch Center of National Innovation Center for Assessment of Basic Education Quality, Chongqing 400715, China;3. Faculty of Education, Southwest University, Chongqing 400715, China)
-value was an important tool for statistical inference in educational research, but there were many problems in its application. Based on statistical analysis of the use of-value in the 241 articles belonging to the CSSCI journals in the field of education (2017—2018), it was found that these problems in the use of-value, including-value error expression, selecting the significance level by the-value, ignoring the effect of samples to-value, incompletely reporting the information of-value and related indicators, etc. Therefore, it was necessary to understand-values and related concept before using-values, give alpha before calculating-value, repeatability test and introduce the effect size, provide full reports as much as possible. Besides, as an important index to measure the effect size, the effect size was often ignored by educational researchers. Therefore, in order to improve the accuracy of statistical inference and the scientificity of educational research,five types of effect size could be introduced to educational research, both qualitative judgment and quantitative judgment should be considered, by using-value and effect size.
-value; problem; hypothesis testing; effect size
2019–03–22
中國基礎(chǔ)教育質(zhì)量監(jiān)測協(xié)同創(chuàng)新中心重大成果培育性項(xiàng)目——高中監(jiān)測制度建設(shè)及監(jiān)測方式研究(2019-06-021-BZPK01);中國博士后基金面上項(xiàng)目——學(xué)校特色發(fā)展水平常模構(gòu)建研究(2017M622934);中國基礎(chǔ)教育質(zhì)量監(jiān)測協(xié)同創(chuàng)新中心重點(diǎn)培育項(xiàng)目——西藏小學(xué)生數(shù)學(xué)學(xué)業(yè)質(zhì)量監(jiān)測(2018-06-020-BZPK01);中央高校專項(xiàng)資金項(xiàng)目——西藏初中生數(shù)學(xué)學(xué)業(yè)質(zhì)量監(jiān)測研究(SWU1709664)
沈光輝(1993—),男,湖北襄陽人,碩士,主要從事教育統(tǒng)計(jì)研究.
G449.7
A
1004–9894(2019)04–0092–07
沈光輝,范涌峰,陳婷.教育研究中的值使用:問題及對(duì)策——兼談效應(yīng)量的使用[J].?dāng)?shù)學(xué)教育學(xué)報(bào),2019,28(4):92-98.
[責(zé)任編校:周學(xué)智、陳漢君]
數(shù)學(xué)教育學(xué)報(bào)2019年4期