• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      認知診斷模型資料擬合檢驗方法和統(tǒng)計量*

      2016-02-01 02:10:50劉彥樓
      心理科學進展 2016年12期
      關鍵詞:被試測驗題目

      陳 孚 辛 濤 劉彥樓 劉 拓 田 偉

      (1北京師范大學心理學院;2北京師范大學中國基礎教育質量監(jiān)測協(xié)同創(chuàng)新中心,北京 100875)

      (3曲阜師范大學中國教育大數據研究院,曲阜 273165)(4天津師范大學教育科學學院,天津 300384)

      1 引言

      作為新一代測驗理論,認知診斷理論在過去的幾十年間成為了測量學界研究的熱點。認知診斷評價結合了認知心理學理論和統(tǒng)計模型,通過被試在測驗中的實際作答反應獲得被試在所考察的認知技能(或稱之為“屬性”)上的掌握情況,從而實現對個體知識結構、加工技能或認知結構進行診斷評估(Leighton&Gierl,2007)。通過認知診斷模型(cognitive diagnosticmodels,CDM s)對測驗數據的分析,被試可獲得其知識或技能掌握情況的精細化報告,使用者也可達到形成性和診斷性評價的目的(Embretson,1998;Tatsuoka,1983)。據統(tǒng)計,現有的認知診斷模型多達100多種(辛濤,樂美玲,張佳慧,2012),這些模型對所考察屬性與作答反應關系的假設往往是不同的。對于認知診斷實踐而言,如何從眾多模型中選擇合適的模型?又如何評價所選的模型與數據之間的匹配程度?模型資料擬合檢驗能夠為這些決策提供重要的參考指標。

      和其它統(tǒng)計模型的擬合檢驗類似,CDM擬合檢驗可分為三個方面:模型資料全局或整體擬合檢驗(global/overallmodel-data fit)考察在整體水平上模型是否良好匹配數據,項目擬合(item fit)檢驗考察測驗中的部分項目是否擬合所選模型,個人擬合(person fit)檢驗考察參加測驗的被試是否適用于所選模型。需特別說明的是,CDM對被試的診斷分類應基于Q矩陣被正確界定的前提下進行,因此對Q矩陣正確性的檢驗也應納入CDM擬合檢驗的一部分,但由于篇幅有限,且Q矩陣的修正和估計方法內容豐富,已有相關綜述發(fā)表(劉永,涂冬波,2015),本文在此略去。擬合檢驗的另一種分類方式是相對擬合檢驗和絕對擬合檢驗,前者用于多個模型對同一批數據的擬合情況比較,從而通過最優(yōu)的擬合指標選擇最適用于分析和診斷的模型,后者用于考察某個特定的模型與數據的擬合情況。

      然而,傳統(tǒng)的基于卡方的擬合檢驗方法不適用于CDM,這是由CDM的特性及卡方檢驗的使用條件所決定的(Rup p,Tem p lin,&Henson,2010)。卡方檢驗必須遵循的應用條件為足夠大的樣本量,以確保在列聯(lián)表中每個單元格的期望頻數不少于5(Agresti&Finlay,1997)。在認知診斷測驗中,少量的題目就可能產生大量的期望作答反應模式。如果樣本量較小,較大數量的期望作答反應模式就易導致列聯(lián)表中的很多單元格不存在觀測值。例如,一個包含30題的認知診斷測驗,可能的作答反應模式超過10億種,但實際中被試數量卻有限,因此大量的期望反應模式在實際樣本中無法被觀測到,此時便造成列聯(lián)表稀疏(sparse)問題。在該情形下,使用卡方檢驗會使檢驗所犯的一類錯誤率急劇增大。一般而言,傳統(tǒng)的卡方檢驗只適用于認知診斷測驗題目少于10~12個的情況(Sinharay&A lmond,2007),但該情況在認知診斷實踐中并不多見。

      盡管CDM擬合檢驗面臨困境,但已有不少研究者在重復抽樣技術(resampling techniques)、后驗預測模型檢查(posterior predictivemodel checking,PPMC)方法和有限信息的絕對擬合檢驗方法基礎上提出了相應的擬合檢驗統(tǒng)計量,這些方法或統(tǒng)計量都能較好地用于模型選擇以及模型數據失擬的評估(e.g.,de la Torre&Douglas,2008;Jurich,2014;Kunina-Habenicht,Rupp,&Wilhelm,2012)。以下部分分別對CDM的項目擬合、模型絕對擬合、模型相對擬合和個人擬合方法和統(tǒng)計量進行介紹和評價,最后提出對未來研究方向的思考和展望。

      2 CDM項目擬合檢驗統(tǒng)計量

      CDM項目擬合檢驗一般是絕對擬合檢驗。當前,研究者可使用的CDM項目擬合檢驗方法大致可以分為三個方面:基于傳統(tǒng)卡方檢驗的擬合統(tǒng)計量、基于PPMC方法的擬合統(tǒng)計量以及基于有限信息的擬合統(tǒng)計量。

      2.1 基于傳統(tǒng)卡方檢驗的擬合統(tǒng)計量

      此類統(tǒng)計量為傳統(tǒng)的分類數據擬合統(tǒng)計量,用于刻畫每種屬性掌握模式中觀測頻數和模型預測的頻數之間的差異。在項目反應理論(item response theory,IRT)框架中,這些統(tǒng)計量都服從或近似服從卡方分布。

      2.1.1 統(tǒng)計量

      對于考察K個屬性的認知診斷測驗而言,最多可能存在2K種屬性掌握模式。此時,進行卡方檢驗的皮爾遜2c統(tǒng)計量通過下式計算而得:

      其中Fjl為屬性掌握模式為的被試中答對題目j的“觀測”頻數(該頻數實際不可觀測,依賴于模型參數估計結果),Ejl為模型預測的屬性掌握模式為的被試中答對題目j的期望頻數,K為屬性個數。在樣本量足夠大的情況下,該統(tǒng)計量近似服從以自由度為的卡方分布(m為模型參數個數)。

      2.1.2 Q1統(tǒng)計量

      Q1統(tǒng)計量是統(tǒng)計量的變式,其表達式如下(Yen,1981):

      其中Nl表示被分類到屬性掌握模式中被試的“觀測”頻數。在數據不稀疏的前提下,Q1j服從自由度為的卡方分布(m為模型參數個數)。

      2.1.3 PD統(tǒng)計量

      其中T為總的分組數(在CDM中,T為可能的屬性掌握模式數量2K),為分組l中的觀測頻數,El為分組l中的期望頻數。當時,該統(tǒng)計量為統(tǒng)計量;當的極限為0時,該統(tǒng)計量為統(tǒng)計量。PD統(tǒng)計量在取不同值時具有不同的檢驗力,而研究者認為是在各種情形下都具有較好檢驗力的適中值(Read&Cressie,1988),因此可將時構造的PD統(tǒng)計量運用到CDM項目擬合檢驗當中(Wang,Shu,Shang,&Xu,2015):

      該統(tǒng)計量通過被試的屬性掌握模式對被試進行分組。同樣地,在數據不稀疏的前提下,PDj統(tǒng)計量服從自由度為的卡方分布(m為模型參數個數)。

      2.1.4 統(tǒng)計量

      Q1和PD統(tǒng)計量都依賴于被試的屬性掌握模式的估計結果,因此“觀測”頻數實際上不可直接觀測。為了避免對屬性掌握模式點估計的不準確性,Wang等(2015)借鑒了Stone(2000)的思想,使用的后驗分布獲得每種屬性掌握模式中正確作答題目j被試頻數的偽數(pseudo-counts)rjl替代“觀測”頻數Fjl。rjl的表達式為:

      由于rjl的計算依賴于屬性掌握模式的先驗分布以及模型參數,不同分組間的觀測頻數值不是相互獨立的,同一名被試可以基于相應的概率被分類到不同的屬性掌握模式分組中,因此該和統(tǒng)計量不再服從卡方分布,但可以通過蒙特卡洛重復抽樣技術產生一個經驗的抽樣分布,作為和統(tǒng)計量的檢驗標準(Stone,2000)。

      卡方類統(tǒng)計量的最大優(yōu)點在于計算簡便,易于理解。但由于卡方檢驗使用條件的限制,此類統(tǒng)計量并不能直接應用于CDM擬合檢驗當中(Rupp etal.,2010)?,F有對上述問題的嘗試的主要途徑是借助蒙特卡洛重復抽樣技術獲得統(tǒng)計量的抽樣分布(Bartholomew&Tzamourani,1999;Tollenaar&Mooijaart,2003),從而完成擬合檢驗。但由于該方法需要模擬多個數據集,且需對每個數據集重新進行參數估計和擬合統(tǒng)計量估計,因此實際使用需要耗費大量的時間。如果模型本身、Q矩陣以及參數估計方法較為復雜,重復抽樣技術便難以應用到實踐當中。因此,該方法在實際使用中并不被研究者推薦(Rupp et al.,2010),而是作為其它方法的基礎。

      將傳統(tǒng)卡方類統(tǒng)計量直接應用于CDM項目擬合檢驗的研究并不多見。涂冬波、張心、蔡艷和戴海琦(2014)將和統(tǒng)計量運用到DINA(determ inistic inputs,noisy “and”gate)模型的項目擬合檢驗,通過模擬研究發(fā)現這兩個統(tǒng)計量能有效偵查項目失擬情況,但檢驗效果會受測驗長度、屬性個數等因素的影響。Wang等人(2015)的研究探討了和統(tǒng)計量在傳統(tǒng)EM算法和PPMC方法(詳見下一部分)下的擬合表現差異,結果發(fā)現在這兩種估計方法下和統(tǒng)計量表現都較好,但這兩個統(tǒng)計量在EM算法下的統(tǒng)計檢驗力比在PPMC方法下更高。

      2.2 基于后驗預測模型檢查(PPMC)方法的統(tǒng)計量

      后驗預測模型檢查(posterior predictivemodel checking,PPMC;Rubin,1984;Sinharay,2006;Sinharay&A lmond,2007)方法的核心是比較觀測數據與模型預測數據(replicated data)在差異度量(discrepancymeasures)上的差異大小。該方法是基于貝葉斯模型的擬合檢驗方法,主要適用于模型參數估計基于貝葉斯框架的情形。PPMC方法一般與MCMC算法結合,基于MCMC算法中馬爾科夫鏈上每一步得到的模型參數計算新的預測數據及擬合統(tǒng)計量(差異度量)用于評估模型的擬合情況。過程如下:

      適用于PPMC方法的差異度量較多,主要有簡單相關系數(pointbiserial correlations)、項目誤差均方根、基于同分類的項目擬合統(tǒng)計量(item fit measures based on equivalence classmembership)、基于總分的項目擬合統(tǒng)計量(item fitmeasures based on raw scores)、項目間關聯(lián)指標(association among the items)和平均絕對差異(mean absolute deviation)及其近似誤差均方根(RMSEA)。

      2.2.1 簡單相關系數

      該統(tǒng)計量使用的是被試的項目得分和個人總分之間的點二列相關Corr.,多應用于IRT模型(Lord,1980;Sinharay,2005),可評估項目之間是否等區(qū)分度(單昕彤,譚輝曄,劉永,吳方文,涂冬波,2014)。在CDM項目擬合檢驗中,可通過對觀測的相關均值和預測的相關均值對比及PPP值判斷模型對數據的擬合情況。

      2.2.2 項目誤差均方根

      同理,在預測數據中,對項目j同樣可以計算其差異度量,最后使用在所有迭代中的比例作為項目擬合好壞的指標,當該比例接近0.5時說明項目擬合較好。

      項目誤差均方根是一個較為保守的擬合統(tǒng)計量,在實際研究中不適用于項目的絕對擬合檢驗,因此通常作為比較項目擬合差異的相對擬合指標(Yan,M islevy,&Almond,2003)。

      2.2.3 基于同分類的項目擬合統(tǒng)計量

      此類擬合指標以同一屬性掌握模式的被試在項目上的正確作答比例為構造基礎,既可用于評價項目擬合,也可用于評價總體擬合。定義具有屬性掌握模式的被試在項目上的正答比例為,而在預測數據中該正答比例為。其中并不能通過觀測數據直接獲得,而是依賴于模型參數估計值。每個題目和每種屬性掌握模式的組合在MCMC算法的每一次迭代中都有對應的一組和,通過對兩者的比較以及相應的PPP值即可檢驗項目擬合情況。由于每個項目都需對每種屬性掌握模式進行差異度量的檢驗,因此研究者在此基礎上進一步提出了兩個類和類統(tǒng)計量用以評價項目擬合(Sinharay,2006)。

      令Nk為屬性掌握模式k中的人數,Ejk為具有屬性掌握模式k的被試正確作答項目j的概率,可通過MCMC算法每次迭代的被試參數和模型參數計算而得。則類統(tǒng)計量為:

      此類統(tǒng)計量雖然是依據卡方檢驗的思想構造的,但由于被試的屬性掌握模式是未知的,此類統(tǒng)計量的參照分布并不明確,可能會影響擬合檢驗的實際效果。Sinharay,Almond和Yan(2004)在貝葉斯網絡(Bayesian Network)框架下使用不同參數個數的模型對Tatsuoka(1990)的分數減法數據進行分析,結果發(fā)現使用類統(tǒng)計量對項目擬合和測驗總體擬合的檢驗效果并不理想。因此,此類統(tǒng)計量的參照分布和統(tǒng)計檢驗力都需要進一步研究(Sinharay&Almond,2007)。此外,此類統(tǒng)計量基于被試的屬性掌握模式分組,但被試的屬性掌握模式不可直接觀測,而是依賴模型的參數估計結果,因此如果樣本量過小可能會導致屬性掌握模式的估計不穩(wěn)定,從而就可能影響該統(tǒng)計量的檢驗效果。研究者因此又提出了基于被試總分的項目擬合指標(Sinharay,2006)。

      2.2.4 基于總分的項目擬合統(tǒng)計量

      同樣是借鑒卡方統(tǒng)計量的思想,但基于被試總分的項目擬合指標是以被試在測驗上的原始得分作為分組依據的。定義總分為的被試在項目上的正答比例為,而在預測數據中該正答比例為。每個題目和每個總分的組合在MCMC算法的每一次迭代中都有對應的一組和,通過對兩者的比較以及相應的PPP值檢驗便可檢驗項目擬合情況。和基于同分類的指標構造相同,研究者也提出了兩個類和類統(tǒng)計量。

      令Nk為獲得總分k的人數,Ejk為具有總分k的被試正確作答項目j的概率,則類統(tǒng)計量為:

      此類統(tǒng)計量的擬合檢驗方法與基于同分類的擬合統(tǒng)計量一致。此類統(tǒng)計量的優(yōu)點在于通過被試總分進行分組避免了基于屬性掌握模式分組的參數估計不確定性,能提高擬合檢驗的效果。Sinharay(2006)基于PPMC方法在貝葉斯網絡框架下對這兩類統(tǒng)計量的擬合效果進行了比較,結果發(fā)現基于總分的項目擬合統(tǒng)計量比基于同分類的項目擬合統(tǒng)計量具有更好的擬合檢驗效果。

      2.2.5 項目間關聯(lián)指標

      項目間關聯(lián)指標常用于IRT模型的局部獨立性假設檢驗(Chen&Thissen,1997;Sinharay,2005;Sinharay&Johnson,2003)。令為在第一題上得k分且在第二題上得分的人數,。則可用優(yōu)勢比來刻畫項目間關聯(lián),該統(tǒng)計量為:

      在擬合檢驗中,一個完美擬合的模型應該能完全解釋數據之間的關聯(lián),因此通過PPMC方法中模型預測的優(yōu)勢比能夠考察模型對測驗項目關聯(lián)的解釋程度,從而就能達到評價模型對數據擬合的目的。

      2.2.6 平均絕對差異及其RM SEA

      Kunina-Habenicht等(2012)在 Henson,Roussos,Douglas和He(2008)研究的基礎上提出了基于某類屬性掌握模式的被試中觀測的和期望的項目正答概率的絕對差異的MAD統(tǒng)計量:

      Kunina-Habenicht等(2012)通過模擬研究發(fā)現,樣本量大小、測驗考察的屬性數量和題目所考察的屬性數量都會影響MADj和的擬合效果,樣本量越大,統(tǒng)計檢驗力越高。此外,的統(tǒng)計檢驗力相比于MADj稍高。

      2.2.7 小結

      PPMC方法的最大優(yōu)點在于其使用了參數的后驗預測分布,有效避免參數估計不穩(wěn)定的問題,即使在樣本量很小的情形下也可以較好使用。對于認知診斷模型的擬合檢驗,PPMC方法還是存在一些不可忽視的問題:首先,相關的模擬研究表明,PPMC方法過于保守,對于項目或測驗的絕對擬合檢驗并不具備優(yōu)良性質;其次,PPMC方法依賴于MCMC算法,而MCMC算法需要進行大量密集的計算,對實踐而言也并非易事;最后,PPMC方法中的PPP值為非均勻分布(Robins,van der Vaart,&Ventura,2000),而原假設成立時,檢驗的p值應服從均勻分布,這就導致使用PPP值進行假設檢驗時一類錯誤率會低于設定的顯著性水平,相應的PPMC方法的統(tǒng)計檢驗力也會受到影響。

      2.3 基于有限信息的項目擬合統(tǒng)計量

      由于傳統(tǒng)的卡方類統(tǒng)計量都是建立在被試所有可能的作答反應模式基礎上的,因此這類統(tǒng)計量又稱作完全信息的擬合檢驗統(tǒng)計量?;谟邢扌畔⒌臄M合檢驗方法(Reiser,1996;Reiser&Lin,1999)則可以在較大程度上解決基于完全信息的統(tǒng)計量無法應用于CDM擬合檢驗的困境。

      和基于完全信息的擬合檢驗不同,有限信息擬合檢驗利用的是完全列聯(lián)表中的概括性信息,即使用完全列聯(lián)表中的低階信息評價模型數據擬合。具體來說,在CDM框架中,有限信息擬合檢驗通常使用題目對的雙變量信息(Bivariate information)進行擬合檢驗,如此便可解決傳統(tǒng)擬合檢驗的列聯(lián)表稀疏問題。例如,使用傳統(tǒng)的卡方統(tǒng)計量對一個30題的認知診斷測驗進行擬合檢驗,列聯(lián)表中可能的作答反應模式超過10億種,而使用雙變量信息可使作答反應模式的數量銳減至種。當然,除了雙變量信息,有限信息擬合檢驗也可以基于更高階的題目關聯(lián)(例如基于三個題目之間的作答反應情況),但隨著題目之間關聯(lián)復雜性的提高,對有限信息統(tǒng)計量的解釋也會更加復雜(Rupp etal.,2010)。下面具體介紹幾種在CDM中可使用的項目有限信息擬合統(tǒng)計量。

      2.3.1 基于題目對的對數發(fā)生比統(tǒng)計量

      de la Torre和Douglas(2004)在提出高階DINA模型時首次提出可以使用基于題目對之間的關聯(lián)指標,即題目對的對數發(fā)生比,作為認知診斷項目擬合統(tǒng)計量。該統(tǒng)計量的思想近似于IRT框架中殘差協(xié)方差的平均絕對差異統(tǒng)計量(M cDonald&Mok,1995)。令為觀測數據中在題目j上得k分且在題目¢上得分的人數,為模型預測數據中在題目j上得k分且在題目上得分的人數,且,觀測數據樣本量為N,預測數據樣本量為,通過計算觀測數據和預測數據中題目j和題目j¢的對數發(fā)生比的絕對差異便可評價項目擬合。該統(tǒng)計量表達式如下:

      對于題目j而言,可以計算其與測驗中其它所有題目之間的的均值用于項目擬合檢驗(de la Torre&Douglas,2004),的均值越接近0,模型對題目j擬合越好。然而,該檢驗方法無法獲得檢驗的經驗p值,因此Tem p lin和Henson(2006)以及 Chen,de la Torre和 Zhang(2013)提出可以將該統(tǒng)計量與蒙特卡洛重復抽樣方法結合,計算題目對對數發(fā)生比的均方根誤差或標準誤及相應的經驗p值用于測驗的絕對擬合檢驗,其中均方根誤差表達式為:,標準誤表達式為:。

      2.3.2 基于題目對相關統(tǒng)計量

      該統(tǒng)計量通過計算題目兩兩之間的皮爾遜相關獲得(DiBello,Roussos,&Stout,2007)。令分別為題目j在觀測數據和期望數據中的作答反應向量,N和分別為觀測數據和預測數據的樣本量,則可以通過度量觀測數據和期望數據中題目對相關的差異進行擬合檢驗,該統(tǒng)計量表達式如下:

      2.3.3 基于題目對的Cohen’sk統(tǒng)計量

      2.3.4 基于單題正確作答比例的統(tǒng)計量

      以上各個統(tǒng)計量都是基于題目對的信息,而基于單題正確作答比例的統(tǒng)計量使用的是單個題目的信息,度量的是觀測數據和預測數據中單個題目正確作答比例的差異。令和分別為題目j在觀測數據和期望數據中的作答反應向量,N和分別為觀測數據和預測數據的樣本量,則該統(tǒng)計量表達式如下:

      以上統(tǒng)計量既可以進行項目的絕對擬合檢驗,也可以對不同項目的擬合情況進行比較。由于這些統(tǒng)計量沒有明確的理論分布,因此具有一定的局限性。此外,這些統(tǒng)計量也較難利用更高階的邊際信息。研究發(fā)現,進行相對擬合檢驗時,基于單題信息的統(tǒng)計量只能應對模型擬合差異較極端的情況,而當模型擬合較為相似時,基于題目對信息的統(tǒng)計量表現更好(de la Torre&Douglas,2008)。Chen等人(2013)的研究還發(fā)現,基于單題信息的統(tǒng)計量擬合檢驗力很差,幾乎無法真正在實踐中運用,而基于題目對相關和對數發(fā)生比的統(tǒng)計量在擬合檢驗性能上幾乎沒有差別。此外,基于題目對相關和對數發(fā)生比的統(tǒng)計量都無法偵查測驗Q矩陣過度設定(即某些Q矩陣元素由“0”設定為“1”)的情況。

      3 CDM總體絕對擬合檢驗統(tǒng)計量

      CDM項目擬合統(tǒng)計量針對的是測驗項目與數據的擬合情況,可用于對項目的選擇。但在實踐中,研究者和實踐者需要明確選用何種認知診斷模型擬合數據,此時逐一進行項目擬合檢驗不現實也不合理。因此,CDM總體絕對擬合檢驗可以幫助研究者考察所選擇模型與數據在總體上的絕對擬合情況,從而保證所選模型的適用性以及對被試診斷分類的準確性。

      3.1 卡方類統(tǒng)計量

      本文2.1部分介紹了用于CDM項目擬合檢驗的卡方類統(tǒng)計量,這些統(tǒng)計量是通過被試的屬性掌握模式對被試進行分組的。卡方類統(tǒng)計量用于CDM總體擬合檢驗時則是通過被試的作答反應模式對被試進行分組的。然而前文提到,使用作答反應模式進行分組極易導致列聯(lián)表稀疏問題,因此卡方類統(tǒng)計量基本無法用于CDM總體絕對擬合檢驗。

      3.2 基于后驗預測模型檢查(PPMC)方法的統(tǒng)計量

      大多數基于PPMC方法的統(tǒng)計量主要用于項目擬合檢驗,但可通過對部分PPMC方法的項目擬合檢驗統(tǒng)計量(如基于同分類的和基于總分的項目擬合統(tǒng)計量)進行加和用于模型的總體擬合檢驗。PPMC方法在上文已有詳盡描述。此外,PPMC的差異度量檢驗一般會結合作圖法一同使用。通過作圖,將觀測數據與模型預測數據直接呈現,可以直觀展示觀測數據和模型預測數據之間的差異(Gelman,Carlin,Stern,&Rubin,2003)。需注意的是,當樣本量較大時,該方法顯然會受到限制,但卻可通過該方法考察數據中部分特定小樣本的擬合情況(如高分組被試數據)(Sinharay,2006)。

      3.3 基于有限信息的總體絕對擬合統(tǒng)計量

      3.3.1 MAD統(tǒng)計量

      Henson,Templin和Willse(2009)在提出LCDM(log-linear cognitive diagnosismodel)框架時提出可使用觀測數據和模型預測數據所有項目對關聯(lián)的絕對差異大小作為總體擬合檢驗指標。該統(tǒng)計量需在PPMC框架中獲得,表達式為:

      其中ijr為觀測數據項目對關聯(lián),?ijr為預測數據項目對關聯(lián)。

      3.3.2 M2統(tǒng)計量

      前文介紹的用于CDM擬合檢驗的有限信息擬合統(tǒng)計量在實際使用中存在一定的缺陷,而Maydeu-Olivares和Joe(2005)提出的M r統(tǒng)計量可以有效避免其它有限信息擬合統(tǒng)計量的缺點,具有較大的擴展性。該類統(tǒng)計量僅用于測驗的總體擬合檢驗。M r統(tǒng)計量可以利用任意的邊際階數信息,即任意數量的題目關聯(lián)進行擬合檢驗,因此可作為有限信息擬合檢驗的一般性方法。M2統(tǒng)計量是M r統(tǒng)計量的一個特例,其利用的是兩個題目組成的題目對信息。相關研究表明,使用M2統(tǒng)計量足以進行實際的有限信息擬合檢驗,且運算效率也較高(Cai,Maydeu-Olivares,Coffman,&Thissen,2006;Maydeu-Olivares&Joe,2005)。

      M2統(tǒng)計量刻畫的是觀測的和期望的邊際頻數或邊際概率之間的差異,因此需要將數據的完全信息縮減為二階的邊際信息,然后通過計算觀測的和期望的二階邊際殘差得到M2統(tǒng)計量。令O為每種作答反應模式中觀測的人數比例向量,為每種作答反應模式中模型預測的人數比例向量,其中為模型參數的估計值,則二階邊際殘差R2為:

      其中L2是一個維的算子矩陣,包含元素為0或1,用以將O和中的完全信息縮減為二階邊際信息。d為線性獨立的一階和二階殘差的數量(詳見Maydeu-Olivares&Joe,2006)。得到R2后,通過權重矩陣W2,便可計算M2統(tǒng)計量:

      對M2統(tǒng)計量性能的研究大多是在IRT和結構方程模型框架下開展的(Maydeu-Olivares,Cai,&,2011;Maydeu-Olivares&,2013;Maydeu-Olivares&Joe,2005,2006),這些研究結果都有力證實了M2統(tǒng)計量良好的擬合檢驗性能。M2統(tǒng)計量在CDM中應用的研究卻相對少見:Jurich(2014)通過一個小尺度的模擬研究檢驗M2統(tǒng)計量在LCDM框架中的統(tǒng)計性質,結果表明M2統(tǒng)計量在CDM框架中也具備對一類錯誤率良好的控制力,并且對模型的錯誤設定具有較高的檢驗力;Liu,Tian和Xin(2016)系統(tǒng)地檢驗了M2統(tǒng)計量在CDM中應用的性質,結果表明M2統(tǒng)計量在各種條件下都具備合適的一類錯誤率及良好的統(tǒng)計檢驗力,為M2統(tǒng)計量在CDM中的應用夯實了理論基礎。

      有限信息擬合檢驗方法的優(yōu)點在于其能有效避免傳統(tǒng)卡方檢驗的列聯(lián)表稀疏問題,也無需通過重復抽樣或MCMC算法進行大量耗時的計算,為實踐提供了便利。此外,部分有限信息擬合統(tǒng)計量(如M2統(tǒng)計量)已在其它統(tǒng)計模型中進行了充分的應用,其擬合檢驗性能較為成熟。當然,有限信息擬合檢驗方法也存在一些缺點,比如早期在CDM中應用的統(tǒng)計量都難以進行絕對擬合檢驗,而M2統(tǒng)計量在CDM中的應用才剛剛起步,還需更多的模擬和實證研究進行進一步的探索。

      4 CDM總體相對擬合檢驗統(tǒng)計量

      相對擬合檢驗統(tǒng)計量在CDM擬合檢驗中應用較多。這類統(tǒng)計量基于模型資料的擬合情況以及模型本身的復雜度,可從多個備選模型中選擇最優(yōu)的模型。常見的CDM相對擬合檢驗統(tǒng)計量為基于信息量的統(tǒng)計量,考慮了模型的簡潔性對數據解釋的意義,對模型的復雜程度進行一定的懲罰。在認知診斷測驗中,最為常用的相對擬合統(tǒng)計量為偏差(deviance,-2Log-Likelihood)、AIC(Akaike,1974)、BIC(Schwarz,1978)、DIC(Spiegelhalter,Best,Carlin,&van der Linde,2002)和貝葉斯因子(Bayes factor,Spiegelhalter&Sm ith,1982),這些統(tǒng)計量都沒有絕對的擬合臨界點。

      4.1 偏差

      偏差統(tǒng)計量是-2倍的似然函數值的自然對數,其值越小,表示模型擬合越好。其計算公式為(其中ML為似然函數):

      4.2 AIC和BIC

      AIC(Akaike’s information criterion)和 BIC(Bayesian information criterion)可在偏差統(tǒng)計量的基礎上獲得,二者可用以下公式表示:

      4.3 DIC

      DIC通常用于貝葉斯框架中MCMC算法下的模型比較,是AIC的推廣,同樣包含模型擬合情況和模型復雜程度兩個部分。其表達式如下:

      4.4 貝葉斯因子

      貝葉斯因子通常用于在貝葉斯框架中兩個非嵌套模型之間的比較。對于競爭模型M A和M B而言,貝葉斯因子計算的是二者邊際似然的比值,表達式如下:

      若BF>1,則支持模型M A,否則支持模型MB。

      大量關于CDM的模擬或應用研究都應用了上述統(tǒng)計量,這是由于在CDM絕對擬合統(tǒng)計量亟待開發(fā)的情況下,使用相對擬合統(tǒng)計量是較為可行的做法。然而,這些統(tǒng)計量在CDM中的檢驗效果也會因使用條件不同而存在些許差異。例如,使用MCMC算法時,DIC相比于AIC或BIC具備更優(yōu)良的擬合檢驗性能(de la Torre&Douglas,2008)。由于BIC比AIC對模型自由參數的懲罰更加嚴格,因此當模型的錯誤設定針對模型參數項時,BIC相比于AIC對模型錯誤設定的偵查效果更差(Kunina-Habenicht et al.,2012)。此外,Galeshi和Skaggs(2014)的研究發(fā)現,當樣本量較大時,AIC和BIC的擬合檢驗效果近似;而當樣本量較小時,BIC的擬合檢驗效果更優(yōu)越。

      5 個人擬合檢驗方法

      個人擬合檢驗用于考察所選模型是否適用于參加測驗的被試。由于認知診斷評價需要對被試的屬性掌握模式做出診斷分類,被試的作答反應如果和所選模型不符,就可能導致無效的診斷,因此個人擬合檢驗對于認知診斷評價來說尤為重要(Cui&Li,2015)。對于認知診斷實踐而言,如果部分被試的作答反應不符合所選用模型的基本假定,或該部分被試的作答反應與大部分被試存在較大差異時,便要考慮將這部分被試的數據刪除,否則就會影響模型的參數估計結果及對被試的診斷(宋麗紅,2012)。若個人擬合檢驗的結果顯示大部分被試都不擬合模型,則可能是所選用的模型在總體上對數據就不擬合,因而模型的總體擬合是個人擬合探測的基礎。被試不擬合的原因可能來自三個方面:首先是所選模型的假設無法準確刻畫被試的作答反應模式;其次是被試出現了異常作答,例如作弊、對題干進行反?;蜻^度理解、隨機作答等(Cui&Leighton,2009);最后是測驗的Q矩陣存在錯誤設定,例如被試作答所使用的認知屬性未被包含在Q矩陣當中(Liu,Douglas,&Henson,2009)。當前,個人擬合統(tǒng)計量的開發(fā)主要還是在IRT框架中進行(詳見Rupp,2013),而在CDM框架下開發(fā)的個人擬合統(tǒng)計量卻相對較少。以下部分介紹幾種已經在CDM框架中使用的個人擬合統(tǒng)計量。

      5.1 被試誤差均方根

      Yan等人(2003)較早提出使用被試誤差均方根評價個人擬合,和使用項目誤差均方根檢驗項目擬合類似,使用該統(tǒng)計量需要在PPMC方法下進行。定義觀測數據中被試i在項目上 的 作 答 反 應 為為在MCMC算法第t次迭代中出現該作答反應的期望概率,則觀測數據xij在第t次迭代中的平方誤差為。此時可使用被試i在第t次迭代中的誤差均方根作為被試擬合的差異度量:

      同理,在預測數據中,對被試i同樣可以計算其差異度量,最后使用在所有迭代中的比例作為個人擬合好壞的指標,當該比例接近0.5時說明個人擬合較好。然而,該指標是在PPMC框架下運用的,依賴于特定的算法,在實際研究中使用具有一定的局限性。

      5.2 層級一致性指標

      層級一致性指標(the hierarchy consistency index,HCI;Cui&Leighton,2009)是基于屬性層級模型(the attribute hierarchy method,AHM;Leighton,Gierl,&Hunka,2004)建立的個人擬合統(tǒng)計量。屬性層級模型事先假定測驗所考察的認知屬性之間具有屬性層級關系,并且強調測驗編制要在屬性層級關系的指導下進行。在屬性層級關系的假設下,被試如果答對了測量復雜屬性的題目,那么他們也理應答對測量簡單屬性的題目。因此,構建HCI的基本思想便是衡量被試的真實作答反應模式與屬性層級關系作用下的期望作答反應模式之間的匹配程度。HCI的表達式如下:

      Cui和 Leighton(2009)通過模擬研究發(fā)現,HCI對個人不擬合的偵查效果會受到不擬合類型、項目區(qū)分力(item discrim inating power)和測驗長度的影響,尤其是當測驗項目的區(qū)分力都較高時,HCI的檢驗力才會達到最大。值得注意的是,使用HCI進行個人擬合檢驗的前提是測驗所考察屬性的層級關系已被正確界定,然而實踐中屬性層級關系的界定一般是通過領域專家完成的,由于專家的知識經驗難免存在差異,因此界定的屬性層級關系不可能保證完全準確,此時使用HCI進行擬合檢驗得到的不擬合結果便可能源于Q矩陣的錯誤設定。更重要的是,當測驗的屬性之間不涉及層級關系或者僅有部分屬性之間存在層級關系,HCI便失去了檢驗效力,因此HCI的這種計算方法對不擬合的評估方式存在一定的局限性。

      5.3 似然比檢驗統(tǒng)計量

      Liu等人(2009)通過對假設的反常作答反應模式似然值和正常的作答反應模式似然值進行對比,提出了用于鑒別具有反常作答反應傾向被試的似然比檢驗統(tǒng)計量。為了得到假設的反常作答反應模式的似然值,相應的認知診斷模型的項目反應函數需要進行如下修改:

      邊際似然表達式為:

      其中l(wèi)0或L0對應的是被試正常作答的假設,而lA或LA對應的是被試反常作答的假設。

      Liu等人(2009)通過模擬研究發(fā)現,當測驗較長或被試反常作答傾向較明顯時,似然比檢驗統(tǒng)計量對被試失擬的統(tǒng)計檢驗力較高。此外,在DINA模型框架下,使用基于邊際似然的T2統(tǒng)計量比使用基于聯(lián)合似然的T1統(tǒng)計量更加可靠。盡管此類統(tǒng)計量能夠鑒別出被試的反常作答反應傾向,但其缺點在于:此類統(tǒng)計量只定義了兩種失擬類型,即“不合邏輯的高得分”和“不合邏輯的低得分”兩種情況,而被試的反常作答反應可能包含多種形式,被試失擬的來源也較復雜,所以此類統(tǒng)計量對于其它失擬類型的檢驗程序和檢驗效果還有待研究。

      5.4 lz統(tǒng)計量

      Cui和Li(2015)通過模擬研究發(fā)現,在項目區(qū)分力較高的情形下,lz統(tǒng)計量在認知診斷框架中也呈現漸進的正態(tài)分布。

      5.5 反應一致性指標

      反應一致性指標(the response conform ity index,RCI;Cui&Li,2015)的基本思想是:Q矩陣無法對每一個被試作答所使用的屬性進行界定,這就可能導致被試的實際作答反應和Q矩陣預測的作答反應不符,因此RCI用于檢驗被試實際作答反應和Q矩陣預測的作答反應之間的一致性。該統(tǒng)計量表達式如下:

      其中ia是被試i的屬性掌握模式,為在ia影響下模型估計的正確作答題目j的概率。表示屬性掌握模式為ia的被試對題目j的理想反應,其值為0或1,當被試掌握了題目所要求的所有屬性時,,如果被試未掌握全部題目所要求的屬性,則。

      Cui和 Li(2015)使用 C-RUM(compensatory RUM)模型通過模擬研究系統(tǒng)地比較了T2、lz和RCI統(tǒng)計量的擬合表現。研究結果表明,當題目數量較多或者題目區(qū)分力較大時,這三個統(tǒng)計量都具有較高的統(tǒng)計檢驗力;T2統(tǒng)計量在各模擬條件下都呈現出了膨脹的一類錯誤率,而lz和RCI統(tǒng)計量的一類錯誤率都接近理論假設。

      6 小結和展望

      由于認知診斷理論是新一代的心理教育測量理論,對認知診斷理論各個方面的探討都還處于發(fā)展階段,而認知診斷模型資料擬合檢驗作為提供認知診斷評價效度證據的重要方面,更應置于重要的研究地位。近20多年來,隨著認知診斷理論的日趨完善,不少的研究者提出了相應的認知診斷擬合統(tǒng)計量。本文在已有研究的基礎上,詳盡了可實際應用的認知診斷擬合檢驗統(tǒng)計量及相關研究,試圖為未來研究者提供一個整體的框架,以期對認知診斷研究的進一步完善。以下通過一個表格對現有主要的CDM擬合檢驗研究進行總結(見表1)。

      CDM擬合檢驗面臨的困境主要在于認知診斷數據的稀疏性問題,相關的擬合檢驗方法或統(tǒng)計量都圍繞于此試圖加以解決。傳統(tǒng)卡方類統(tǒng)計量盡管最為認知診斷擬合檢驗所詬病,但由于計算的簡便性和易理解性,還是值得未來的研究者繼續(xù)借鑒卡方統(tǒng)計量的思想進行改造,并結合新的途徑以實現新的突破,例如統(tǒng)計量在EM算法或PPMC方法下都具有較好的擬合效果(Wang etal.,2015)。PPMC方法通過后驗預測分布解決參數估計不準確問題,能夠實現小樣本情形下的擬合檢驗(Wang et al.,2015)。盡管在早期的認知診斷擬合檢驗中PPMC方法應用較多,但所提出的統(tǒng)計量大多都僅僅是一個差異的度量,各統(tǒng)計量分布情況不明確,無法可靠地進行擬合檢驗,還需未來研究進一步完善。但相比傳統(tǒng)卡方類統(tǒng)計量,PPMC方法理應是一個更加優(yōu)越的擬合檢驗方法。有限信息擬合檢驗是最新發(fā)展的CDM擬合檢驗方法。有限信息擬合統(tǒng)計量,尤其是M2統(tǒng)計量的優(yōu)越性能已在IRT和結構方程模型框架中得到了充分的證明。盡管在CDM框架中有限信息擬合統(tǒng)計量應用較少,但根據有限信息擬合檢驗的基本思想和已有研究結論,不難發(fā)現有限信息擬合檢驗方法對CDM擬合檢驗具有不俗的表現,是值得未來研究的CDM擬合檢驗領域。

      表1 認知診斷模型資料擬合檢驗研究總結

      本文針對實踐中如何選用合適的CDM擬合統(tǒng)計量給出如下建議。針對項目擬合檢驗,只有當樣本量足夠大且題目數量很少時,可考慮使用等卡方類統(tǒng)計量。而對于一般的認知診斷測驗,應盡量避免使用卡方類統(tǒng)計量。如果模型的參數估計使用MCMC算法,可優(yōu)先考慮使用基于PPMC方法的統(tǒng)計量,例如平均絕對差異及其RMSEA。而當模型的參數估計方法不限定于MCMC時,建議使用基于雙變量信息的有限信息擬合統(tǒng)計量。針對總體的絕對擬合檢驗,根據Liu等(2016)的研究結論,M2統(tǒng)計量的性能良好且穩(wěn)定,可成為在各種條件下的優(yōu)先選擇。針對個人擬合檢驗,可根據不同個人擬合檢驗統(tǒng)計量的檢驗邏輯進行選擇,不同統(tǒng)計量之間不存在絕對的優(yōu)劣。例如當屬性存在層級關系時,則優(yōu)先選擇HCI。而根據Cui和Li(2015)的研究結論,RCI更適用于在被試創(chuàng)造性作答、猜測作答、被試瞌睡和Q矩陣錯誤設定情形下的被試失擬檢驗,而lz對被試疲勞導致的被試失擬檢驗效果更好。

      尤需注意的是,認知診斷測驗的開發(fā)以及對被試的診斷評價都是在Q矩陣的指導下進行的?,F有的CDM擬合檢驗方法都假定Q矩陣的界定是正確的,而錯誤的Q矩陣對認知診斷的參數估計和被試分類都存在影響(Rupp&Templin,2008),因此Q矩陣的正確性對擬合檢驗效果自然起到了先導性和決定性的作用。然而,Q矩陣的正確界定也是認知診斷實踐面臨的重大挑戰(zhàn),最突出的例子便是20多年來研究者對Tatsuoka(1990)的分數減法數據的Q矩陣界定爭議不斷,至今未有定論。因此,為了使現有的CDM擬合檢驗方法能更加準確和有效地運用,如何更好地正確界定Q矩陣需要未來研究更多深入的探討。

      對于未來研究的開展,本文提出以下幾點研究方向的展望。

      第一,現有的大部分擬合統(tǒng)計量性能研究都是基于DINA、C-RUM等特定模型開展的,未來的研究可以探討各統(tǒng)計量在其它模型或者一般化模型下的擬合檢驗性能;

      第二,現有的擬合統(tǒng)計量開發(fā)都是基于0、1計分的CDM進行的,而CDM也可進行多級計分或包含多級屬性,未來的研究可以進一步探討不同的擬合檢驗方法或統(tǒng)計量如何在多級數據或多級屬性下拓展;

      第三,現有的擬合統(tǒng)計量性能大多未被充分證明,未來的研究可以進一步通過模擬研究檢驗各統(tǒng)計量在一類錯誤率和統(tǒng)計檢驗力上的表現,并且豐富研究條件,使各統(tǒng)計量性能更加明確。

      劉永,涂冬波.(2015).認知診斷測驗Q矩陣估計方法比較.中國考試,(5),53–63.

      單昕彤,譚輝曄,劉永,吳方文,涂冬波.(2014).項目反應理論中模型—資料擬合檢驗常用統(tǒng)計量.心理科學進展,22,1350–1362.

      宋麗紅.(2012).DINA改進模型(R-DINA)的提出及三個診斷模型自動選擇機制研究(博士學位論文).江西師范大學,南昌.

      涂冬波,張心,蔡艷,戴海琦.(2014).認知診斷模型-資料擬合檢驗統(tǒng)計量及其性能.心理科學,37,205–211.

      辛濤,樂美玲,張佳慧.(2012).教育測量理論新進展及發(fā)展趨勢.中國考試,(5),3–11.

      Agresti,A.,&Finlay,B.(1997).Statisticalmethods for the social sciences(3rd ed.,p.258).Upper Sadd le River,NJ:Prentice Hall.

      Akaike,H.(1974).A new look at the statistical model identification.IEEE Transactions on Automatic Contro l,19(6),716–723.

      Bartholomew,D.J.,&Tzamourani,P.(1999).The goodness of fit of latent trait models in attitude measurement.Socio logical Methods&Research,27,525–546.

      Cai,L.,Maydeu-Olivares,A.,Coffman,D.L.,&Thissen,D.(2006).Lim ited-information goodness-of-fit testing of item response theory models for sparse 2Ptables.British Journal of Mathematical and Statistical Psycho logy,59,173–194.

      Chen,J.S.,de la Torre,J.,&Zhang,Z.(2013).Relative and absolute fit evaluation in cognitive diagnosis modeling.Journal ofEducational Measurement,50,123–140.

      Chen,W.H.,&Thissen,D.(1997).Local dependence indexes for item pairs using item response theory.Journal ofEducational and Behavioral Statistics,22,265–289.

      Cui,Y.(2007).The hierarchy consistency index:Development and analysis(Unpublished doctoral dissertation).University of Alberta,Edmonton,A lberta,Canada.

      Cui,Y.,&Leighton,J.P.(2009).The hierarchy consistency index:Evaluating person fit for cognitive diagnostic assessment.Journal of Educational M easurement,46,429–449.

      Cui,Y.,&Li,J.(2015).Evaluating person fit for cognitive diagnostic assessment.Applied Psychological Measurement,39,223–238.

      de la Torre,J.,&Douglas,J.A.(2004).Higher-order latent trait models for cognitive diagnosis.Psychometrika,69,333–353.

      de la Torre,J.,&Douglas,J.A.(2008).Model evaluation and multip le strategies in cognitive diagnosis:An analysis of fraction subtraction data.Psychometrika,73,595–624.

      DiBello,L.V.,Roussos,L.A.,&Stout,W.F.(2006).Review of cognitively diagnostic assessment and a summary of psychometric models.In C.R.Rao&S.Sinharay(Eds.),Handbookofstatistics(Vol. 26, pp. 979–1030).Am sterdam:Elsevier.

      D rasgow,F.,Levine,M.V.,&W illiam s,E.A.(1985).Appropriateness measurement w ith polychotomous item responsemodels and standardized indices.British Journal ofMathematical and Statistical Psycho logy,38,67–86.

      Embretson,S.E.(1998).A cognitive design system approach to generating valid tests:Application to abstract reasoning.PsychologicalMethods,3,380–396.

      Galeshi,R.,&Skaggs,G.(2014).Traditional fit indices utility in new psychometric model:Cognitive diagnostic model.International Journal of Quantitative Research in Education,2,113–132.

      Gelman,A.,Carlin,J.B.,Stern,H.S.,&Rubin,D.B.(2003).Bayesian data analysis(2nd ed.).New York:Chapman&Hall.

      Henson,R.,Roussos,L.,Douglas,J.,&He,X.M.(2008).Cognitive diagnostic attribute-level discrim ination indices.Applied Psychological Measurement,32,275–288.

      Henson,R.A.,Templin,J.L.,&Willse,J.T.(2009).Defining a fam ily of cognitive diagnosis models using log-linear models w ith latent variables.Psychometrika,74,191–210.

      Jurich,D.P.(2014).Assessing model fit ofmultidimensional item response theory and diagnostic classification models usinglim ited-informationstatistics(Unpublished doctorial dissertation). James M adison University,Harrisonburg,Virginia,United States.

      Kunina-Habenicht,O.,Rupp,A.A.,&W ilhelm,O.(2012).The im pact of model m isspecification on parameter estimation and item-fit assessment in log-linear diagnostic classification models.Journal of Educational Measurement,49,59–81.

      Leighton,J.,& Gierl,M.(2007).Cognitive diagnostic assessment for education:Theory and applications.New York:Cambridge University Press.

      Leighton,J.P.,Gierl,M.J.,&Hunka,S.M.(2004).The attribute hierarchy method for cognitive assessment:A variation on Tatsuoka’s rule-space approach.Journal of Educational Measurement,41,205–237.

      Levy,R.,M islevy,R.J.,&Sinharay,S.(2009).Posterior predictivemodel checking formultidimensionality in item response theory.Applied Psycho logical Measurement,33,519–537.

      Liu,Y.,Douglas,J.A.,&Henson,R.A.(2009).Testing person fit in cognitive diagnosis.Applied Psychological Measurement,33,579–598.

      Liu,Y.L.,Tian,W.,&Xin,T.(2016).An application ofM 2statistic to evaluate the fit of cognitive diagnostic models.Journal of Educational and Behavioral Statistics,41(1),3–26.

      Lord,F.M.(1980).Applications of item response theory to practical testingproblems.Hillsdale,NJ:Law rence Erlbaum Associates.

      Maydeu-O livares,A.,Cai,L.,& Hernández,A.(2011).Comparing the fit of item response theory and factor analysis models.StructuralEquationModeling:A Multidisciplinary Journal,18,333–356.

      Maydeu-Olivares,A.,& Joe,H.(2005).Lim ited-and full-information estimation and goodness-of-fit testing in 2ncontingency tables:A unified framew ork.Journal of the American Statistical Association,100,1009–1020.

      Maydeu-O livares,A.,&Joe,H.(2006).Lim ited information goodness-of-fit testing in multidimensional contingency tables.Psychometrika,71,713–732.

      Maydeu-O livares,A.,&Monta?o,R.(2013).How should we assess the fit of Rasch-type models?Approximating the pow er of goodness-of-fit statistics in categorical data analysis.Psychometrika,78,116–133.

      M cDonald,R.P.,&Mok,M.M.-C.(1995).Goodness of fit in item response models.Multivariate Behavioral Research,30,23–40.

      Oliveri,M.E.,&von Davier,M.(2011).Investigation of model fit and score scale comparability in international assessments.Psychological Testand AssessmentModeling,53,315–333.

      Read,T.R.C.,&Cressie,N.A.C.(1988).Goodness-of-fit statistics for discrete multivariate data.New York,NY:Springer.

      Reiser,M.(1996).Analysis of residuals for the multionm ial item responsemodel.Psychometrika,61,509–528.

      Reiser,M.,&Lin,Y.C.(1999).A goodness-of-fit test for the latent class model w hen expected frequencies are small.Socio logical Methodo logy,29,81–111.

      Robins,J.M.,van der Vaart,A.,&Ventura,V.(2000).Asymptotic distribution of P values in com posite null models.Journal of the American Statistical Association,95,1143–1156.

      Rubin,D.B.(1984).Bayesianly justifiable and relevant frequency calculations for the applied statistician.The Annals ofStatistics,12,1151–1172.

      Rupp,A.A.(2013).A systematic review of themethodology for person fit research in item response theory:Lessons about generalizability of inferences from the design of simulation studies.Psychological Test and Assessment Modeling,55,3–38.

      Rupp,A.A.,& Tem plin,J.L.(2008).The effects of Q-matrix m isspecification on parameter estimates and classification accuracy in the DINA model.Educational and Psycho logical Measurement,68,78–96.

      Rupp,A.A.,Temp lin,J.,&Henson,R.A.(2010).Diagnostic measurement:Theory,methods,and applications.New York:Guilford.

      Schwarz,G.(1978).Estimating the dimension of a model.Annals ofStatistics,6(2),461–464.

      Sinharay,S.(2005).Assessing fit of unidimensional item response theory models using a Bayesian approach.Journal ofEducational Measurement,42,375–394.

      Sinharay,S.(2006). M odel diagnostics for Bayesian netw orks.JournalofEducationalandBehavioral Statistics,31,1–33.

      Sinharay,S.,A lmond,R.,&Yan,D.L.(2004).Assessing fit ofmodels with discrete proficiency variables in educational assessment(ETSRR-04-07).Princeton NJ:ETS.

      Sinharay,S.,&A lmond,R.G.(2007).Assessing fit of cognitive diagnostic models:A case study.Educational and Psychological Measurement,67,239–257.

      Sinharay,S.,&Johnson,M.S.(2003).Simulation studies applyingposteriorpredictivemodelcheckingfor assessing fit of the common item response theory models(ETSRR-03-28).Princeton,NJ:ETS.

      Spiegelhalter,D.J.,&Sm ith,A.F.M.(1982).Bayes factors for linear and log-linear models w ith vague prior information.Journal of the Royal Statistical Society:Series B,44,377–387.

      Spiegelhalter,D.J.,Best,N.G.,Carlin,B.P.,&van der Linde,A.(2002).Bayesian measures ofmodel com plexity and fit.Journal of the Royal Statistical Society:Series B,64,583–639.

      Stone,C.A.(2000).Monte carlo based null distribution for an alternative goodness-of-fit test statistic in IRT models.Journal ofEducational Measurement,37,58–75.

      Tatsuoka,K.K.(1983).Rule space:An approach for dealing w ith m isconceptions based on item response theory.Journal ofEducational Measurement,20,345–354.

      Tatsuoka, K. K. (1990). Toward an integration of item-response theory and cognitive error diagnosis.In N.Frederiksen,R.G laser,A.Lesgold,&M.G.Shafto(Eds.),Diagnostic monitoring of skill and know ledge acquisition(pp.453–488).Hillsdale,NJ:Law rence Erlbaum.

      Tem plin,J.L.,&Henson,R.A.(2006).Measurement of psychological disorders using cognitive diagnosis models.Psycho logical Methods,11,287–305.

      Tollenaar,N.,&M ooijaart,A.(2003).Type I errors and power of the parametric bootstrap goodness-of-fit test:Full and lim ited information.BritishJournalof Mathematical and Statistical Psychology,56,271–288.

      Wang,C.J.,& Gierl,M.J.(2007).Investigating the cognitive attributes underlying student performance on the SAT?critical reading subtest:an application of the attribute hierarchy method.Paper presented at the 2007 annual meeting of the National Council on Measurement in Education.

      Wang,C.,Shu,Z.,Shang,Z.R.,&Xu,G.J.(2015).Assessing item-level fit for the DINA model.Applied Psycho logical Measurement,39,525–538.

      Yan,D.L.,M islevy,R.J.,&A lmond,R.G.(2003).Design and analysis in a cognitive assessment(ETS RR-03-32).Princeton NJ:ETS.

      Yen,W.M.(1981).Using simulation results to choose a latent traitmodel.Applied Psycho logical Measurement,5,245–262.

      猜你喜歡
      被試測驗題目
      多級計分測驗中基于殘差統(tǒng)計量的被試擬合研究*
      心理學報(2022年9期)2022-09-06 07:56:06
      唐朝“高考”的詩歌題目
      文苑(2020年7期)2020-08-12 09:36:22
      關于題目的要求
      本期練習類題目參考答案及提示
      《新年大測驗》大揭榜
      趣味(語文)(2018年7期)2018-06-26 08:13:48
      兩個處理t測驗與F測驗的數學關系
      考試周刊(2016年88期)2016-11-24 13:30:50
      一道不等式題目的推廣
      求知導刊(2015年15期)2015-05-30 00:51:54
      你知道嗎?
      少年科學(2014年10期)2014-11-14 07:38:17
      Positive Solu tions of Non linear Ellip tic Prob lem in a Non-Sm ooth Planar Dom ain
      民族雜居區(qū)大專生學習社會化現狀的調查與分析
      钦州市| 喀什市| 南澳县| 冕宁县| 望都县| 青铜峡市| 崇礼县| 通河县| 长岭县| 镇远县| 洞口县| 保定市| 吴堡县| 理塘县| 桐庐县| 阿克陶县| 岳西县| 土默特右旗| 黔江区| 巴彦淖尔市| 景谷| 乌审旗| 聂拉木县| 漾濞| 河西区| 罗平县| 盱眙县| 三台县| 大同县| 文登市| 平乐县| 衡阳市| 钟山县| 海淀区| 三河市| 商丘市| 东丽区| 荥经县| 察隅县| 牙克石市| 楚雄市|