宋麗紅,汪文義,戴海琦,丁樹良
(1.江西師范大學初等教育學院,南昌 330022;2.江西師范大學計算機信息工程學院,南昌 330022;
3.江西師范大學心理學院,南昌 330022)
?
認知診斷模型下整體和項目擬合指標*
宋麗紅1,汪文義2,戴海琦3,丁樹良2
(1.江西師范大學初等教育學院,南昌 330022;2.江西師范大學計算機信息工程學院,南昌 330022;
3.江西師范大學心理學院,南昌 330022)
摘要:認知診斷模型能否擬合測驗數(shù)據(jù),直接決定診斷結果的準確性。目前國內鮮有研究涉及認知診斷測驗下的模型-資料擬合檢驗。文章將模型整體擬合指標及基于PPMC的項目擬合指標應用于認知診斷模型-資料擬合檢驗。模擬研究基于DINA,R-DINA和R-RUM三個診斷模型檢驗各擬合指標的表現(xiàn)。結果顯示整體和項目擬合指標在識別數(shù)據(jù)產生模型時皆有較高準確率。采用整體和項目擬合指標比較了三個競爭模型與Tatsuoka帶分數(shù)減法數(shù)據(jù)的擬合情況,顯示R-RUM擬合最好。
關鍵詞:認知診斷模型;DINA;R-DINA;R-RUM;后驗預測模型檢查;帶分數(shù)減法數(shù)據(jù)
1引言
認知診斷評估是認知心理學與心理計量學相結合的產物,是21世紀一種新的測量范式。認知診斷模型是描述可觀察反應與潛在認知屬性之間關系的統(tǒng)計模型,對認知診斷評估至關重要。為了滿足不同情境下實際應用需求,研究者開發(fā)出了眾多認知診斷模型。相關文獻顯示,截止到2007年,已有診斷模型超過60個(Fu & Li,2007),而之后又涌現(xiàn)出了不少診斷模型(陳秋梅,張敏強,2010;R-DINA,宋麗紅,戴海琦,汪文義,丁樹良,2012)。
在認知診斷實踐中,選擇恰當?shù)恼J知診斷模型是對被試準確診斷或分類的重要前提(Rupp,Templin,& Henson,2010)。對于特定的診斷測驗,診斷模型的選擇要依據(jù)心理學或教育學的理論假設,如模型假設與測驗作答心理認知過程的匹配性(楊向東,2010;Kunina-Habenicht,Rupp,& Wilhelm,2012),測驗Q矩陣與測驗作答所需屬性及屬性結構的吻合性(丁樹良,毛萌萌,汪文義,羅芬,Cui,2012;涂冬波,蔡艷,戴海琦,2013;Chen,Torre,& Zhang,2013;Kunina-Habenicht et al.,2012)。根據(jù)理論假設確定一個或幾個競爭模型后,需要對診斷模型的模型-資料擬合情況進行考察與評估。
從現(xiàn)有資料來看,國內外公開發(fā)表的認知診斷評估框架下模型-資料擬合研究仍不為多見。Chen等人提出采用-2LL,AIC,BIC和三個殘差指數(shù)識別診斷評估框架下的模型-資料擬合情況(Chen,Torre,& Zhang,2013)。涂冬波、張心、蔡艷和戴海琦(2014)討論了χ2和G2統(tǒng)計量在認知診斷模型-資料擬合檢驗中的可行性及效果。然而χ2和G2統(tǒng)計量及Chen等人提出的指標都存在需要確定統(tǒng)計量理論分布的問題。Sinharay等人構建了基于后驗預測模型檢查方法(PPMC,Rubin,1984)的檢驗統(tǒng)計量PPP值(posterior predictive p-value,PPP-value)并用于考察貝葉斯網與測驗資料的擬合情況(Sinharay,2006;Sinharay & Almond,2007)。由于基于PPMC方法計算的檢驗統(tǒng)計量PPP值,無需確定統(tǒng)計量分布,因此具有較好的應用前景。但Sinharay和Almond(2007)沒有進一步對診斷測驗下其指標的性能與表現(xiàn)進行模擬研究,仍無法確定PPP值統(tǒng)計量在認知診斷測驗中的檢驗性能。
2模型資料擬合指標
2.1整體相對擬合指標
此處簡要介紹基于缺失數(shù)據(jù)的整體相對擬合指標:偏差-2LL,AIC,BIC,DIC4。指標越小,表示模型資料擬合越好。各指標計算如下:
AIC=-2LL+2d
BIC=-2LL+dlogN
其中-2LL是對數(shù)似然函數(shù)的條件期望,AIC,BIC 和DIC4在考慮偏差的基礎上,還考慮模型參數(shù)多少以懲罰復雜模型,pD4表示模型的有效參數(shù)個數(shù)或有效維度(Celeux et al.,2006)。
2.2項目及測驗絕對擬合指標
其對應的項目或測驗PPP值可類似計算得到,PPP值越大顯示模型-資料擬合越好。
2.2.2Yen統(tǒng)計量
3模擬研究
3.1實驗設計
模擬研究目的是驗證上述模型整體擬合統(tǒng)計量和項目擬合統(tǒng)計量的偵測性能。模擬采用的項目Q陣含5個相互獨立屬性、30個項目(其中考察1個、2個、3個屬性的項目數(shù)各為10個)。知識狀態(tài)全集數(shù)為32,每種知識狀態(tài)模擬60人,共模擬1920個被試。由于模型存在差異,DINA模型和R-DINA模型的失誤和猜測參數(shù)為:1-s~4-Beta(0.4,1,2,1)和g~4-Beta(0,0.6,1,2),而R-RUM模型中參數(shù)分別為:π~U(0.8,0.98)和r~U(0.1,0.6)。固定Q陣和被試,分別采用DINA,R-DINA和R-RUM(產生數(shù)據(jù)模型,或稱真實模型)模擬得分陣。然后對各批得分陣數(shù)據(jù),分別使用DINA,R-DINA和R-RUM進行分析(分析數(shù)據(jù)模型,或稱擬合模型),三個模型均采用MCMC估計,各采用5條鏈,每條鏈長設置為5000,保留后面4000。
3.2實驗結果及結論
3.2.1MCMC收斂檢查
3.2.2整體擬合指標表現(xiàn)
表1列出了各情形下相對擬合指標DIC4及絕對擬合指標G2的測驗PPP值。在DIC4的計算結果中,對角線元素皆為其所在列最小值,可見DIC4指標能正確識別數(shù)據(jù)產生模型。-2LL、AIC和BIC表現(xiàn)類似(結果未列出)。觀察絕對擬合指標G2的測驗PPP值,發(fā)現(xiàn)對角線元素皆為其所在列最大值。由于PPP值越大模型擬合越好,表中數(shù)據(jù)表明基于PPMC的G2檢驗法能較好地識別數(shù)據(jù)產生模型。
表1 模擬數(shù)據(jù)整體擬合指標
注:左表頭第一列表示分析數(shù)據(jù)模型,上表頭第二行表示產生數(shù)據(jù)模型
表2 模擬數(shù)據(jù)項目擬合指標表現(xiàn)
注:左表頭第二列表示分析數(shù)據(jù)模型,上表頭第二行表示產生數(shù)據(jù)模型
3.2.3項目擬合指標表現(xiàn)
表2列出了項目擬合指標的表現(xiàn)。在0.01顯著性水平上,基于PPMC的χ2檢驗法拒真率為0;納偽率稍大。尤其R-DINA和R-RUM模型之間的納偽概率較大,這是可能因為R-RUM假設比R-DINA弱,R-DINA模型產生的數(shù)據(jù),R-RUM可全部擬合。R-RUM模型產生的數(shù)據(jù)用R-DINA進行分析時,有10個項目發(fā)生錯判。進一步考察10個錯判項目和10個判對的項目(排除10個單個屬性項目),該兩批項目R-RUM的rjk參數(shù)標準差的平均值分別為.09和.17。這一錯判結果在情理之中,因為在屬性同質性較高的情況下,R-RUM模型與R-DINA模型區(qū)別不大,且R-DINA模型簡單得多。G2檢驗方法與χ2檢驗方法表現(xiàn)十分接近(結果未列出)。Yen統(tǒng)計量總體表現(xiàn)較χ2檢驗法稍差,這可能與Yen統(tǒng)計量需要假定統(tǒng)計量分布有關,而基于PPMC的檢驗方法無需理論分布假設。
4實測數(shù)據(jù)分析
模擬研究結果顯示模型整體和項目擬合指標均表現(xiàn)不錯,但指標能否有效應用到實測數(shù)據(jù)分析有待考察。為此,研究采用經典的Tatsuoka(2002)分數(shù)減法測驗數(shù)據(jù),運用前述各項指標評價三個診斷模型(DINA,R-DINA,R-RUM)與該測驗數(shù)據(jù)資料的擬合情況。
Tatsuoka隨文公布的分數(shù)減法測驗數(shù)據(jù)含20個項目和536個被試。文章按題目內容從中抽取15個帶分數(shù)減法項目進行分析,項目所測屬性為5個(Sinharay & Almond,2007),被試屬性掌握模式為32種。根據(jù)前述模型整體擬合指標和項目擬合指標,下文對三個競爭模與該數(shù)據(jù)資料的擬合情況進行比較與評價。參數(shù)估計采用MCMC方法,總鏈長25000,保留后面15000。
4.1MCMC收斂檢查
4.2模型整體擬合
文章首先考察了三個模型的整體相對擬合指標-2LL、AIC、BIC和DIC4,結果顯示,DINA擬合最差,R-DINA與R-RUM各有優(yōu)勢。從DIC4看,R-RUM下DIC4(9157)比R-DINA下DIC4(9211)稍好;但從BIC來看,R-DINA下BIC(9576)較R-RUM BIC(9827)小較多,原因是R-RUM是一個復雜模型,在BIC指標計算中受到了更大的懲罰。Chen等人(2013)的研究結果也表明,較之DINA模型,R-RUM模型與該批實測數(shù)據(jù)擬合更好。文章接著考察了R-RUM與R-DINA模型的整體絕對擬合指標G2的PPP值,R-RUM模型測驗PPP值為0.07,在.05水平上未達到顯著,表明R-RUM模型擬合較好。R-DINA的整體絕對擬合指標G2的PPP值為0.01,絕對擬合欠佳。
4.3模型項目擬合
表3列出了三個模型在各項目上的似然比統(tǒng)計量的后驗預測P值(卡方統(tǒng)計量的PPP值與之類似,故略)。在0.01顯著性水平上,DINA模型有3個項目不擬合,與Sinharay和Almond(2007)基于χ2值(相當于文中Yen統(tǒng)計量)得出的結果基本類似;R-RUM與R-DINA模型各有1個項目擬合不佳;相比之下,R-RUM的PPP值較大,擬合最好,這與上述模型整體擬合結果一致。
表3 帶分數(shù)減法數(shù)據(jù)之項目似然比統(tǒng)計量的PPP值
5結論與討論
模型-資料擬合檢驗是模型選擇的重要依據(jù)。然而,模型-資料擬合檢驗雖可為認知診斷模型選擇提供一定信息,但模型的選擇不能僅憑模型擬合數(shù)據(jù)的好壞來評判。認知診斷模型的選擇需要綜合考慮多方面的因素,如需要充分結合文獻調查、學科專家和口語報告等方法的結果,評判所測量的領域涉及的認知屬性及屬性間關系、分析被試作答的心理認知過程。診斷模型選擇還要結合模型的復雜性與解釋性及診斷目的能否充分實現(xiàn)等因素,如單維項目反應模型可能可以較好地擬合數(shù)據(jù),但要求其提供豐富的診斷信息還比較困難;在能夠實現(xiàn)診斷目的的前提下,簡單模型較復雜模型參數(shù)估計更容易,解釋性更好。另外,由于認知診斷模型不擬合原因的多樣性,仍需構建檢查特定不擬合類型的統(tǒng)計量,如對數(shù)機率比可用于模型局部獨立性檢驗。文章僅考慮了模型整體擬合指標和基于知識狀態(tài)等價類的項目水平擬合指標,被試擬合指標及基于原始分數(shù)的項目擬合指標有待進一步探討和比較。最后,認知診斷模型提供的診斷信息,是否能真正在教學中起到作用,有待更多的實證研究去探討。
參考文獻
陳秋梅,張敏強.(2010).認知診斷模型發(fā)展及其應用方法述評.心理科學進展,3,522-529.
丁樹良,毛萌萌,汪文義,羅芬,Cui,Y.(2012).教育認知診斷測驗與認知模型一致性的評估.心理學報,44,1535-1546.
漆書青,戴海崎,丁樹良.(2002).現(xiàn)代教育與心理測量學原理.北京:高等教育出版社.
宋麗紅,戴海琦,汪文義,丁樹良.(2012).R-DINA模型參數(shù)估計EM算法準確性檢驗.心理學探新,32,410-413.
涂冬波,蔡艷,戴海琦.(2013).幾種常用非補償型認知診斷模型的比較與選用:基于屬性層級關系的考量.心理學報,45,243-252.
涂冬波,張心,蔡艷,戴海琦.(2014).認知診斷模型-資料擬合檢驗統(tǒng)計量及其性能.心理科學,37,205-211.
楊向東.(2010).測驗項目反應機制與心理測量模型假設的對應性分析.心理科學進展,18,1349-1358.
Brooks,S.P.,& Gelman,A.(1998).General methods for monitoring convergence of iterative simulations.JournalofComputationalandGraphicalStatistics,47(4),434-455.
Celeux,G.,F(xiàn)orbers,F(xiàn).,Robert,C.P.,& Titterington,D.M.(2006).Deviance information criteria for missing data models.BayesianAnalysis,1,651-674.
Chen,J.,Torre,J.D.L.,& Zhang,Z.(2013).Relative and absolute fit evaluation in cognitive diagnosis modeling.JournalofEducationalMeasurement,50,123-140.
Fu,J.B.,& Li,Y.M.(2007).Cognitivelydiagnosticpsychometricmodels:Anintegrativereview.Paper presented at the National Council on Measurement in Education,Chicago,IL.
Junker,B.W.,& Sijtsma,K.(2001).Cognitive assessment models with few assumptions,and connections with nonparametric item response theory.AppliedPsychologicalMeasurement,25,258-272.
Kunina-Habenicht,O.,Rupp,A.A.,& Wilhelm,O.(2012).The impact of model misspecification on parameter estimation and item-fit assessment in log-linear diagnostic classification models.JournalofEducationalMeasurement,49,59-81.
Rubin,D.B.(1984).Bayesianly justifiable and relevant frequency calculations for the applied statistician.AnnalsofStatistics,12,1151-1172.
Rupp,A.A.,Templin,J.L.,& Henson,R.A.(2010).Diagnosticmeasurement:Theory,methods,andapplications.New York:The Guilford Press.
Sinharay,S.(2006).Model diagnostics for bayesian networks.JournalofEducationalandBehavioralStatistics,31,1-33.
Sinharay,S.,& Almond,R.G.(2007).Assessing fit of cognitive diagnostic models:A case study.EducationalandPsychologicalMeasurement,67,239-257.
Tatsuoka,C.(2002).Data analytic methods for latent partially ordered classification models.JournaloftheRoyalStatisticalSociety:SeriesC(AppliedStatistics),51,337-350.
Global Fit Indices and Item-Fit Indices for Cognitive Diagnostic Models
Song Lihong1,Wang Wenyi2,Dai Haiqi3,Ding Shuliang2
(1.Elementary Educational College,Jiangxi Normal University,Nanchang 330022;2.College of Computer Information Engineering,Jiangxi Normal University,Nanchang 330022;3.College of Psychology,Jiangxi Normal University,Nanchang 330022)
Abstract:One key issue in cognitive diagnostic assessement(CDA)is to select a suitable diagnostic model for a specific test.Mismatch between diagnostic model and test data would lead to decreasing classification accuracy.At present,few studies have addressed model-data fit criterion for CDA.Based on posterior predictive model checking(PPMC),this study introduces several global fit indices and item-fit indices for model evaluations in CDA.The global fit indexes may provide information for answering the question as to the utility of the data for analysis by the model.The item-fit indexes are used to determine the interaction between the item responses and skills that each item is designed to measure.Simulation and real-data studies are conducted to examine the performance of these indices on three CDMs.The simulation results indicate that:(1)global fit indices are almost able to identify the simulation models and detect poor-fitting models;(2)the item fit indices were able to identify fitting items and detect poor-fitting items.The results from real-data analysis indicate that:(1)according to BIC and DIC4and global G2,the R-RUM performed best followed by R-DINA model,and DINA model worst;(2)for the number of item fit,the R-RUM and the R-DINA model also outperform the DINA model.
Key words:cognitive diagnostic model;DINA;R-DINA;R-RUM;posterior predictive model checking;fraction subtraction data
中圖分類號:B841.2
文獻標識碼:A
文章編號:1003-5184(2016)01-0079-05
通訊作者:宋麗紅,E-mail:viviansong1981@163.com。
*基金項目:全國教育科學規(guī)劃教育部重點課題(DHA150285)。