• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      納入?yún)f(xié)變量信息的多級計分認知診斷模型

      2021-08-28 02:08周文杰郭磊
      心理技術與應用 2021年8期

      周文杰 郭磊

      摘 要 在多級計分協(xié)變量認知診斷框架下,提出了一種可同時納入連續(xù)協(xié)變量信息和多類別協(xié)變量信息的多級計分認知診斷模型GPDM-C,實現(xiàn)了其DINA形態(tài)的GPDINA-C的MCMC參數(shù)估計。模擬研究的結果顯示,GPDINA-C擁有較好的屬性/模式判準精度和參數(shù)估計能力,相較于未納入?yún)f(xié)變量信息的GPDINA,GPDINA-C有更好的模型表現(xiàn),在參數(shù)估計精度上有較大優(yōu)勢。實證研究的結果同樣表明,GPDINA-C相比于未納入?yún)f(xié)變量信息的多級計分認知診斷模型,能更好擬合實證數(shù)據(jù),估計得到的協(xié)變量影響參數(shù)能客觀反映真實情況。

      關鍵詞 認知診斷;協(xié)變量信息;多級計分認知診斷模型;MCMC

      分類號 B841

      DOI: 10.16842/j.cnki.issn2095-5588.2021.08.005

      1 引言

      在心理和教育學研究中,除了感興趣的變量外,研究人員同時還會收集許多協(xié)變量信息,通常包括性別、年齡、地域、家庭社會經(jīng)濟地位等。Li,Hong和Macready(2015)認為協(xié)變量信息與我們所關注的建模變量具有重要關系。這些協(xié)變量信息常作為調(diào)節(jié)因子調(diào)節(jié)自變量對因變量的影響,或是作為控制變量加以控制,許多心理學研究均涉及協(xié)變量信息。例如,張莉、薛香娟和趙景欣(2019)以家庭社會經(jīng)濟地位作為協(xié)變量控制,構建縱向中介模型,發(fā)現(xiàn)農(nóng)村留守兒童先前的學業(yè)成績能預測隨后的歧視知覺,但先前的歧視知覺不能預測隨后的學業(yè)成績,并且農(nóng)村留守兒童的抑郁在學業(yè)成績和歧視知覺之間起縱向中介作用。王玲曉、張麗婭和常淑敏(2019)在控制性別、年級和家庭社會經(jīng)濟地位后,發(fā)現(xiàn)母親拒絕對兒童的同伴拒絕有顯著正向預測作用,家庭環(huán)境紛雜度調(diào)節(jié)了母親拒絕與同伴拒絕之間的關系,兒童外化問題行為在家庭環(huán)境紛雜度對母親拒絕和同伴拒絕關系的調(diào)節(jié)效應中起完全中介作用。在項目反應理論(item response theory, IRT)中,考慮了協(xié)變量的影響后,可以對個體能力的估計和題目參數(shù)的估計起到積極作用。研究者們提出了一些納入?yún)f(xié)變量信息的項目反應模型,例如,Li等(2015)比較了多種包含協(xié)變量信息的混合Rasch模型(mixture rasch model,MRM),發(fā)現(xiàn)在MRM中納入二分類協(xié)變量時,被試能力估計精度有所提高,在納入連續(xù)協(xié)變量時,被試能力和項目參數(shù)的估計都有所提高。Kahraman(2014)使用解釋性IRT模型對計算機模擬病例考試(computer-based case simulation test, CCS)考生作答數(shù)據(jù)進行分析,分別以性別、反應時、項目順序、選擇題得分作為協(xié)變量納入解釋性IRT模型中,發(fā)現(xiàn)這些協(xié)變量信息均能提高模型對數(shù)據(jù)的擬合度。上述研究均表明,當納入?yún)f(xié)變量信息后,模型參數(shù)的估計精度將得到提升,更擬合實證數(shù)據(jù)。

      然而,在認知診斷評估(cognitive diagnostic assessment, CDA)相關的研究中,少有研究者考慮了協(xié)變量信息的作用。CDA是結合認知心理學和心理測量學優(yōu)勢而開發(fā)的新一代測驗理論(陳秋梅,張敏強,2010;郭磊,張金明,宋乃慶,2019),可用于評估個體知識掌握結構和加工技能( Leighton & Gierl, 2007),向學生和老師提供個性化指導和反饋(Rupp, Templin & Henson, 2010),受到國內(nèi)外研究者的廣泛關注。認知診斷模型(cognitive diagnostic models, CDMs)作為CDA的關鍵,可以實現(xiàn)對個體知識狀態(tài)的估計,正確選擇CDM可以有效提高參數(shù)估計精度。絕大多數(shù)CDMs開發(fā)關注如何更好利用個體作答信息和題目信息提升個體知識狀態(tài)的估計精度,例如為了更加擬合不同題目的屬性連接形式而開發(fā)的不同屬性連接規(guī)則的約束模型(DINA, Junker & Sijtsma, 2001; DINO, Templin & Henson, 2006; LLM, Maris, 1999),以及包含多數(shù)約束模型的飽和模型(GDM, von Davier, 2005; LCDM, Henson, Templin, & Willse, 2009; G-DINA, de la Torre, 2011), 能夠處理多級計分測驗數(shù)據(jù)的多級計分模型(seq-GDINA, Ma & de la Torre, 2016; GPDM, Chen & de la Torre, 2018; GPCDM,高旭亮,汪大勛,王芳,蔡艷,涂東波,2019),能夠處理屬性包含多水平信息的多分屬性模型(pGDINA, Chen & de la Torre, 2013)。但這些CDMs都忽略了協(xié)變量信息的重要作用。

      在認知診斷框架下納入?yún)f(xié)變量信息不僅可以在宏觀層面更好估計個體能力值,還能在微觀層面對個體的知識狀態(tài)實現(xiàn)更精準的分類。研究能夠有效提升分類算法精度的模型具有重要意義,因此,很有必要開發(fā)可處理協(xié)變量信息的CDMs。當前,僅有個別研究探討了協(xié)變量信息在CDMs中的作用。Ayers,Rabe-Hesketh和Nugent(2013)以DINA模型為基礎,利用logistic回歸表征了協(xié)變量信息對屬性掌握概率的影響,構建模型如下:

      Pik為考生i在屬性k上的掌握概率,Malei和Prei分別為考生的性別信息(二分協(xié)變量)和前測成績(連續(xù)協(xié)變量),βMale和βPre是協(xié)變量對掌握概率的影響大小,δk是屬性k的難度參數(shù)。之后,Park和Lee(2014)提出的協(xié)變量DINA模型(the covariate extension of the DINA model)使用協(xié)變量信息分別對考生屬性掌握概率和題目正確作答概率進行表征,其思路與Ayers等(2013)研究相似。Park,Xing和Lee(2017)構建的解釋性認知診斷模型(explanatory CDM)以IRT模型估計得到的能力參數(shù)作為潛在變量,與觀測變量共同作為協(xié)變量表征了屬性掌握概率和題目正確作答概率。上述研究結果表明,在加入?yún)f(xié)變量信息時,提高了個體的屬性/模式判準率,以及題目參數(shù)的估計精度。

      但這些研究存在以下不足,缺乏更廣泛的普適性:(1) 從大型測驗(PISA,TIMSS,高考)到小型測驗(班級測驗),這些測驗中存在大量多級計分題目(Chen & de la Torre, 2018; Ma & de la Torre, 2016),多級計分題目比二級計分題目能夠提供更多信息,而目前的模型均基于二級計分DINA模型開發(fā),不能在多級計分測驗中處理協(xié)變量信息。(2)這些研究中包含的類別協(xié)變量僅為二分變量(如性別),不能處理諸如班級、年級、家庭社會經(jīng)濟地位等多類別協(xié)變量信息。因此,本研究旨在開發(fā)同時可以處理不同類型協(xié)變量的多級計分CDM,以推動CDA在處理協(xié)變量信息層面的研究。

      2 協(xié)變量多級計分認知診斷模型的構建

      2.1 基礎模型的選擇

      對多級計分CDMs進行協(xié)變量拓廣涉及對多級計分CDMs的選擇。目前多級計分CDMs包括基于等級反應模型(graded response model)開發(fā)的P-DINA (polytomous DINA, 涂冬波, 蔡艷, 戴海琦, 丁樹良, 2010)和GPDM(general polytomous diagnosis model, Chen & de la torre, 2018),基于連續(xù)比率模型(continuation ratio model)開發(fā)的序列GDINA模型(sequential GDINA, Ma & de la Torre, 2016)以及基于分布評分模型(partial-credit model)〖JP3〗開發(fā)的GPCDM(general partial credit diagnostic model, 高旭亮等, 2019)等。本研究選擇GPDM作為協(xié)變量拓廣的基礎模型,其原因在于:相比于將題目參數(shù)設置在累計概率P 瘙 毐 ijc的P-DINA,GPDM將題目參數(shù)設置在條件概率Pijc上,這種表示方式更直接(Chen & de la Torre, 2018),因為條件概率Pijc可以直接表示被試i在題目j上得分等級為c的概率,而累計概率P 瘙 毐 ijc表示得分從0至c的概率和,需要通過計算得到對應每個等級的概率值。GPDM、序列GDINA、GPDCDM的加工函數(shù)都是GDINA,但僅有GPDM滿足GDINA的單調(diào)性假設,即掌握更多所需屬性的考生不會降低正確作答的可能性(Chen & de la Torre, 2018; Hong, Chang & Tsai, 2016)。同時,GPDM的Q矩陣界定在題目水平上,而序列GDINA與GPCDM均將Q矩陣定義在類別上,

      得分步驟順序要求嚴格,并且每個類別要求明確地與特定屬性相關聯(lián),類別Q矩陣不總是適用在現(xiàn)實情境中(Chen & de la Torre, 2018)。

      2.2 GPDM-C的測量模型

      GPDM-C(the covariate extension of general polytomous diagnosis model)的測量模型本質(zhì)上等價于GPDM。設診斷測驗包含J個題目,考察K個屬性,qjk為J×K的Q矩陣中第j行k列元素,取值為1時表示j題考察了屬性k,取值為0表示未考察;αik表示被試i是否掌握屬性k,掌握為1,未掌握為0;Yij=c表示被試i在題目j上的得分為c,取值為0,1,…,Cj,Cj為題目j的最高得分。于是,GPDM可表示為:

      其中,P 瘙 毐 ijc表示被試i在j上得分等于c分數(shù)及以上的概率,Pijc則表示被試i在題目j上恰好等于c分的概率;λjc0為題目j分數(shù)c上的截距項,表示當被試沒有掌握題目所考察的屬性時得分為c時的基線參數(shù) ;λjck為題目j分數(shù)c在屬性k上的主效應,表示當被試多掌握屬性k時,對得c分改變的概率;λjckk′為題目j分數(shù)c在屬性k和k′上的一階交互效應,表示除掌握屬性k和k′對得c分改變的概率之外,兩個屬性的額外作用;λjc1, …, K為題目j在屬性1,…,K上的最高階交互作用,表示當掌握了所有必要屬性時,除了屬性主效應和低階交互效應外導致得c分概率改變的額外影響;ωijk用于判斷λjck的存在與否,當題目j考察了屬性k的情況下并且被試i掌握了題目j所考察的屬性k的水平時ωijk=1,否則為0。當Cj≡1時,GPDM等價于GDINA模型(de la Torre, 2011)。特別地,得0分及以上的概率為P 瘙 毐 ij0=1,得分為Cj+1的概率為P 瘙 毐 ij(Cj+1)=0,易得:∑Cjc=0Pijc=1。

      2.3 GPDM-C的結構模型

      利用logistic回歸用連續(xù)協(xié)變量信息和分類協(xié)變量信息表征屬性掌握概率,并將二分類協(xié)變量拓展為多類別協(xié)變量,表示為:

      其中Pik表示被試i掌握屬性k的概率;δk為屬性k的難度參數(shù),表示屬性k的基礎難度;Zi為被試i的連續(xù)協(xié)變量,βk為該連續(xù)協(xié)變量在屬性k上的影響參數(shù);gi表示被試i所屬的類別分組;γgik是分組協(xié)變量gi的影響參數(shù),代表被試i所屬組在屬性k上的影響,約束γ1k≡0;αik服從以Pik為概率的伯努利分布。GPDM-C的測量模型和結構模型構成了最終的GPDM-C模型。

      2.4 縮減模型GPDINA-C與參數(shù)估計

      由于GPDM本質(zhì)是基于GDINA的多級計分拓廣,所以GPDM-C也可以約束為各種簡約模型以滿足不同研究和現(xiàn)實情景的需求。本文基于模型簡約性、更易使大眾理解的考慮,通過對GPDM-C約束,采用更易理解的題目猜測參數(shù)gjc和失誤參數(shù)sjc,提供一種DINA形式的縮減協(xié)變量多級計分模型GPDINA-C,并采用MCMC算法基于R與JAGS軟件,對GPDINA-C模型進行參數(shù)估計,GPDINA-C的JAGS代碼見附錄。GPDINA-C的表達式為:

      其中gjc是題目j在得分c上的猜測參數(shù),sjc是題目j在得分c上的失誤參數(shù),當被試i未掌握題目j所考察的所有屬性時,ηij=1且Pijc=gjc,當被試i掌握了題目j所考察的所有屬性時,ηij=0且Pijc=1-sjc,其他參數(shù)含義同前。盡管本研究以DINA形式為例,但協(xié)變量信息可以拓展至其余多級診斷模型中。

      3 研究1: 模擬研究

      3.1 研究目的

      本研究有兩個目的:(1)驗證MCMC參數(shù)估計方法是否能精準估計GPDINA-C的模型參數(shù),即模型的可識別性,以及在多級計分情景下的屬性/模式判準率。(2)展示當數(shù)據(jù)存在協(xié)變量影響,而錯誤使用未能處理協(xié)變量信息的診斷模型時,會給參數(shù)估計結果帶來的影響。

      3.2 研究設計

      本研究Q矩陣為20題的5屬性三級計分Q矩陣(Chen & de la Torre, 2018),見表1。測驗長度為2個水平:20題、40題,40題的Q矩陣與20題的Q矩陣是重復關系。題目質(zhì)量為3個水平:高質(zhì)量(ηij=1時Pij0從Unif(0.05, 0.15)中生成,ηij=0時Pij0從Unif(0.85, 0.95)中生成)、中等質(zhì)量(ηij=1時Pij0從Unif(0.15, 0.25)中生成,ηij=0時Pij0從Unif(0.75, 0.85)中生成)、低質(zhì)量(ηij=1時Pij0從Unif(0.25, 0.35)中生成,ηij=0時Pij0從Unif(0.65, 0.75)中生成),并使Pij1=Pij2=(1-Pij0)2(Chen & de la Torre, 2018;Ma & de la Torre, 2016)。2000名被試的連續(xù)協(xié)變量從標準正態(tài)分布N(0, 1)中生成,將被試隨機分到三分類分組協(xié)變量中的一組,約束協(xié)變量影響在屬性水平上相等(Ayers et al., 2013),共包括3個水平:高影響、中影響、低影響,分別表示協(xié)變量信息對屬性掌握的影響程度,具體設置見表2;參考Ayers等(2013)做法,設置屬性難度參數(shù)δ=(-1.5, -0.75, 0, 0.75, 1.5)。被試真實掌握情況αik通過公式9和公式10得到。共循環(huán)30次,以期求減小隨機誤差帶來的影響。

      采用平均誤差(bias)和均方根誤差(RMSE)作為評價指標來評價GPDINA-C與GPDINA的參數(shù)返真性,計算方法分別為bias()=∑Rr=1r-vR和RMSE()=∑Rr=1(r-v)2R,其中r為第r次循環(huán)的參數(shù)估計值,v為真值,R為總循環(huán)數(shù)。采用平均屬性判準率(AACCR)和模式判準率(PCCR)評價被試知識狀態(tài)估計的準確性,其計算方法分別為AACCR=∑Ni=1∑Kk=1WikN×K,PCCR=∑Ni=1∏Kk=1WikN,其中當估計得到的ik與真值αik相等時,Wik=1,否則Wik=0。

      3.3 結果

      3.3.1 GPDINA-C平均屬性判準率和模式判準率

      如表3所示,當題目質(zhì)量為高或中等時以及測驗長度較長時,GPDINA-C有著較好的屬性判準率和模式判準率。納入?yún)f(xié)變量信息的GPDINA-C在高質(zhì)量題目條件下,AACCR和PCCR在20題時的范圍分別在0.961~0.970和0.844~0.871,當測驗長度增加到40題時,AACCR和PCCR的范圍分別提升至0.989~0.992和0.947~0.963;題目質(zhì)量為中等時,AACCR和PCCR在20題時的范圍分別在0.896~0.934和0.622~0.740,當測驗長度增加到40題時,AACCR和PCCR的范圍分別提升至0.0.952~0.961和0.813~0.841;題目質(zhì)量為低時,AACCR和PCCR在20題時的范圍分別在0.812~0.887和0.382~0.590,當測驗長度增加到40題時,AACCR和PCCR的范圍分別提升至0.873~0.923和0.552~0.708。題目質(zhì)量和測驗長度大幅度影響了模型的判準率。在相同題目質(zhì)量情況下,協(xié)變量影響越大,模型的判準精度越高。例如,在測驗長度均為20題、題目質(zhì)量均為中等時,在低協(xié)變量影響下的AACCR為0.896, PCCR為0.622, 中等協(xié)變量影響下的AACCR為0.909, PCCR為0.658, 高協(xié)變量影響下的AACCR為0.934, PCCR為0.740。

      在所有實驗條件下,相比于未納入?yún)f(xié)變量信息的GPDINA,GPDINA-C的平均屬性判準率和模式判準率都更高,尤其是在題目質(zhì)量中等或者較差的情況下,該結果表明,當數(shù)據(jù)受到了協(xié)變量影響后,使用未能處理協(xié)變量信息的GPDINA模型,將會對被試的知識狀態(tài)估計精度帶來惡化影響。協(xié)變量效應也影響了GPDINA-C相較于GPDINA的屬性/模式判準精度的提升程度。具體而言,當協(xié)變量的影響越大時,GPDINA-C對GPDINA的屬性/模式判準精度的提升越大。例如,在測驗長度為20題、題目質(zhì)量均為中等時,在低協(xié)變量影響下,AACCR提升了0.07%,PCCR提升了3.7%,在中等協(xié)變量影響下,AACCR提升了1.6%,PCCR提升了7.2%,在高協(xié)變量影響下,AACCR提升了2.9%,PCCR提升了11.6%;在題目質(zhì)量均為低時,在低協(xié)變量影響下,AACCR提升了2.8%,PCCR提升了13.4%,在中等協(xié)變量影響下,AACCR提升了5.8%,PCCR提升了24.0%,在高協(xié)變量影響下,AACCR提升了8.0%,PCCR提升了27.4%。以上表明,在有協(xié)變量影響的測驗中,GPDINA-C能夠得到較高的屬性/模式判準精度,參數(shù)估計方法有效。

      3.3.2 GPDINA-C模型題目參數(shù)估計精度

      如表4所示,GPDINA-C在各實驗條件下的題目參數(shù)估計精度均較好,bias范圍為-0.0017~0.0011,RMSE范圍為0.0119~0.0262。在絕大多數(shù)情況下,GPDINA-C的題目參數(shù)估計精度優(yōu)于GPDINA,bias更接近0,RMSE更小,說明在有協(xié)變量影響的情景下,使用未能處理協(xié)變量信息的GPDINA模型,將會降低對題目參數(shù)估計的精度,這與前人在IRT領域的研究結果保持一致。當題目質(zhì)量提高、協(xié)變量影響變大或題目長度增加時,GPDINA-C題目參數(shù)的估計精度會更好。

      3.3.3 GPDINA-C模型結構參數(shù)估計精度

      如表5所示,GPDINA-C在各實驗條件下的結構參數(shù)估計精度良好。連續(xù)協(xié)變量影響參數(shù)(β)的bias范圍為-0.058~0.045,RMSE范圍為0.016~0.068;分類協(xié)變量影響參數(shù)(γ)的bias范圍為-0.086~0.088,RMSE范圍為0.053~0.135;屬性難度參數(shù)(δ)的bias范圍為-0.060~0.077,RMSE范圍為0.043~0.231。協(xié)變量參數(shù)(β、γ)的估計精度與題目質(zhì)量和協(xié)變量大小有關,當題目質(zhì)量越好或協(xié)變量影響越小時,協(xié)變量參數(shù)的估計精度越好。屬性難度參數(shù)(δ)的估計精度與題目質(zhì)量和協(xié)變量大小有關,當題目質(zhì)量越好或協(xié)變量影響越大時,協(xié)變量參數(shù)的估計精度越好。

      4 研究2: 實證研究

      4.1 研究目的

      比較GPDINA-C與GPDINA在真實測驗中的模型表現(xiàn),驗證納入?yún)f(xié)變量信息的多級計分認知診斷模型在實際應用中的優(yōu)勢和適用性。

      4.2 實證數(shù)據(jù)

      選擇國際數(shù)學與科學趨勢研究(Trends in International Mathematics and Science Study, TIMSS)2007年四年級數(shù)學評估測驗考生的數(shù)據(jù),共有1760名考生,包含10道二級計分題目和2道三級計分題目(第3和第10題)??疾炝?個屬性,測驗Q矩陣由Lee,Park和Taylan(2011)所界定,如表6所示。

      Park和Lee(2014)指出,數(shù)學和科學具有結構和功能上的關系,數(shù)學可以作為科學中的工具,科學也可以進一步刺激數(shù)學的發(fā)現(xiàn)(Li, Shavelson, Kupermintz,? & Ruiz-Primo, 2002),因此,科學成績可以作為數(shù)學成績的預測變量。在本測驗中,考生的數(shù)學成績和科學成績存在顯著正相關(r=0.83,p<0.001),所以本研究選擇考生在科學評估測驗的標準化成績作為連續(xù)協(xié)變量信息用于預測考生的屬性掌握程度。分類協(xié)變量是考生所在地區(qū),共五組,這些地區(qū)的考生成績有顯著的差異(F(4, 1757)=63.64,p<0.001,η2p=0.13),這種地區(qū)的成績差異也能作為被試屬性掌握的預測工具。其中,270名考生來自中國香港地區(qū)(四年級數(shù)學評估測驗成績排名第一),294名考生來自中國臺灣地區(qū)(排名第三),320名考生來自日本(排名第五),312名考生來自英國(排名第九),564名考生來自美國(排名第十三),美國作為基準組別。

      4.3 結果

      4.3.1 模型擬合比較

      在貝葉斯方法下評價模型數(shù)據(jù)擬合的指標為偏差信息準則DIC(deviance information criterion),該指標可由JAGS軟件直接計算得出,公式如下:

      DIC的大小可以判斷模型擬合的相對優(yōu)劣,值越小說明模型對數(shù)據(jù)更擬合。分析得到,未納入?yún)f(xié)變量信息的GPDINA的DIC值為32809.2,納入?yún)f(xié)變量信息的GPDINA-C的DIC值為31518.7,說明納入?yún)f(xié)變量信息的多級計分模型對這批真實數(shù)據(jù)的擬合表現(xiàn)更優(yōu)。

      4.3.2 GPDINA-C的協(xié)變量參數(shù)

      GPDINA-C的協(xié)變量影響參數(shù)β和γ的大小分別反應了連續(xù)協(xié)變量(科學成績)與分組協(xié)變量(考生所在地區(qū))對考生屬性掌握程度的貢獻。結果表明,科學成績對考生屬性掌握的影響大小β=2.16(SD=0.11), p<0.001,說明科學成績可以顯著正向預測考生的數(shù)學能力掌握程度;表4展示了分組協(xié)變量(即地區(qū))對考生屬性掌握的影響,即γ參數(shù),以及各地區(qū)考生在這12題的平均得分。地區(qū)對考生屬性掌握的影響與各地區(qū)的測驗均值有顯著正相關(r=0.97,p=0.006),表明GPDINA-C能很好估計分類協(xié)變量的取值,GPDINA-C能很好地擬合實際情況中分類協(xié)變量對屬性掌握的影響作用。以上結果均表明納入?yún)f(xié)變量信息的GPDINA-C可以提供GPDINA所不能提供的協(xié)變量影響參數(shù)信息,并且GPDINA-C能很好估計協(xié)變量影響大小,其估計值可以作為協(xié)變量影響考生屬性掌握的評價指標。

      4.3.3 考生知識狀態(tài)

      GPDINA-C從28 =256種知識狀態(tài)中識別出1760名考生各自所屬的知識狀態(tài)。圖6展示了考生數(shù)最多的前十類知識狀態(tài),屬于這十類知識狀態(tài)的考生占總考生數(shù)的95.5%。

      5 討論

      5.1 不足與展望

      盡管本研究開發(fā)了能夠處理多種協(xié)變量信息的GPDM-C模型,并給出其簡約模型GPDINA-C的參數(shù)估計的MCMC算法,但仍有一些值得完善和思考的研究方向。

      (1) 在實證研究中,何時需要考慮協(xié)變量的信息,本研究給出如下建議:若協(xié)變量與測驗所考察能力或屬性有顯著的相關關系,此時可以將該協(xié)變量信息納入認知診斷模型中,在控制協(xié)變量信息的基礎上,提高認知診斷模型的估計精度;若協(xié)變量與屬性之間不存在相關關系,可以不納入?yún)f(xié)變量,這也是結構方程模型,縱向數(shù)據(jù)分析,項目反應理論等研究中的常見做法。此外,也可從模型與數(shù)據(jù)擬合指標的角度去判斷協(xié)變量信息是否應納入,若納入?yún)f(xié)變量信息后模型擬合指標變小,則說明納入?yún)f(xié)變量信息后,模型更加擬合該批數(shù)據(jù),理應納入?yún)f(xié)變量信息,獲得更精確的估計結果;反之則可以不納入?yún)f(xié)變量??紤]到文章篇幅和研究的聚焦性,本研究未以GPDINA作為真模型進行探討,未來可嘗試模型的交叉比較。

      (2) GPDM-C是對以等級計分思想為基礎的GPDM進行的開發(fā),而目前存在如基于連續(xù)比率模型(continuation ratio model)的seq-GDINA,基于分布評分模型(partial-credit model)的GPDCDM等其他多級計分思想的模型,它們的計分邏輯不同,未來可基于不同計分邏輯探討納入?yún)f(xié)變量的影響。

      (3) 本研究在模擬和實證研究中約束了模型中的協(xié)變量影響參數(shù)(β,γ)在屬性水平上相等,即協(xié)變量在所有屬性上有相同的作用,這更適用于屬性粒度較小的測驗,例如同一個協(xié)變量對小屬性加法和減法的掌握程度的影響相似,而可能不適用于屬性粒度較大的測驗;同一個協(xié)變量對大屬性數(shù)學和語文的掌握程度的影響差異很大。未來研究中可以放松該限制,考察協(xié)變量在各屬性上的不同影響。

      (4) 本研究涉及的協(xié)變量僅為一種連續(xù)協(xié)變量信息和一種類別協(xié)變量信息的影響,而在現(xiàn)實測驗情境下,研究者收集了大量協(xié)變量信息,未來可以探討納入更多協(xié)變量信息時模型的表現(xiàn),以及加入?yún)f(xié)變量交互作用時模型的表現(xiàn)。

      (5) GPDM-C設定的協(xié)變量影響在屬性水平,即協(xié)變量影響屬性掌握程度,從而影響考生作答情況。當前還存在將協(xié)變量影響直接作用于考生作答水平的建模思路(Park & Lee, 2014; Park at al., 2017),未來還可以在多級計分框架下,探討協(xié)變量影響分別在屬性水平和作答水平時對模型表現(xiàn)的影響。

      (6) 實際中存在大量多分屬性的測驗情景(郭磊, 張金明, 宋乃慶, 2019; Chen & de la Torre, 2013), 納入?yún)f(xié)變量信息可以在屬性的多個水平上產(chǎn)生不同影響效果,所以在多分屬性認知診斷模型中納入?yún)f(xié)變量信息也值得進一步探討。

      5.2 研究結論

      本研究在多級計分認知診斷框架下開發(fā)了一種同時納入連續(xù)協(xié)變量信息和多類別分類協(xié)變量信息的新模型GPDM-C,并實現(xiàn)了其約束模型GPDINA-C的MCMC參數(shù)估計,通過模擬研究驗證了GPDINA-C模型性能,最后通過TIMSS測驗(2007)的實證數(shù)據(jù)驗證了GPDINA-C在實際應用中的效果,驗證了納入?yún)f(xié)變量信息的GPDINA-C相比于傳統(tǒng)多級計分認知診斷模型的優(yōu)勢。主要研究結論如下。

      (1) MCMC參數(shù)估計程序表現(xiàn)優(yōu)良,能精確估計GPDINA-C模型的所有參數(shù)。

      (2) 模擬研究發(fā)現(xiàn),GPDINA-C有較好的判準精度表現(xiàn)。在有協(xié)變量影響的情景下,使用不能處理協(xié)變量信息的認知診斷模型將會對考生知識狀態(tài)的判準精度產(chǎn)生負面影響,尤其是在中等或較差題目質(zhì)量的情況下,相比于GPDINA-C,未納入?yún)f(xié)變量的GPDINA的判準精度大幅降低。

      (3) GPDINA-C題目參數(shù)估計精度較好,在有協(xié)變量影響的情景下,使用不能處理協(xié)變量信息的認知診斷模型將會對題目參數(shù)估計產(chǎn)生負面影響,GPDINA-C的協(xié)變量參數(shù)(β,γ)與屬性難度參數(shù)(δ)都有著較好的參數(shù)估計表現(xiàn)。

      (4) 題目質(zhì)量和協(xié)變量影響的大小影響了參數(shù)估計的精度,題目質(zhì)量越好或協(xié)變量影響越大時,參數(shù)的估計精度越高。

      (5) 實證研究發(fā)現(xiàn), GPDINA-C相比于未納入?yún)f(xié)變量信息的GPDINA而言,對實證數(shù)據(jù)的擬合程度更好,GPDINA-C可以提供GPDINA所沒有的協(xié)變量影響參數(shù),并且協(xié)變量影響參數(shù)能較好地反映真實的協(xié)變量影響情況,值得在實際應用中推廣。

      參考文獻

      陳秋梅, 張敏強 (2010). 認知診斷模型發(fā)展及其應用方法述評. 心理科學進展, 18(3), 522-529.

      郭磊, 張金明, 宋乃慶 (2019). 整合后驗信息的多分屬性認知診斷信效度指標. 心理科學, 42(2), 446-454.

      高旭亮, 汪大勛, 王芳, 蔡艷, 涂冬波 (2019). 基于分部評分模型思路的多級評分認知診斷模型開發(fā). 心理學報, 51(12), 1386-1397.

      王玲曉, 張麗婭, 常淑敏 (2019). 兒童母親拒絕與同伴拒絕的關系——一個有中介的調(diào)節(jié)模型. 心理科學, 42(6), 1347-1353.

      張莉, 薛香娟, 趙景欣 (2019). 歧視知覺、抑郁和農(nóng)村留守兒童的學業(yè)成績:縱向中介模型. 心理科學, 42(3), 584-590.

      Ayers, E., Rabe-Hesketh, S., & Nugent, R. (2013). Incorporating student covariates in cognitive diagnosis models. Journal of Classification, 30(2), 195-224.

      Chen, J., & de la Torre, J. (2013). Ageneral cognitive diagnosis model for expert-defined polytomous attributes. Applied Psychological Measurement, 37(6), 419-437.

      Chen, J., de la Torre, J. (2018). Introducing thegeneral polytomous diagnosis modeling framework. Frontiers in Psychology, 9, 1474.

      de la Torre, J. (2011). The generalized DINA model framework. Psychometrika, 76(3), 179-199.

      Henson, R. A., Templin, J. L., & Willse, J. T. (2009). Defining a family of cognitive diagnosis models using log-linear models with latent variables.? Psychometrika, 74(2), 191-210.

      Hong, C.Y., Chang, Y.W., and Tsai, R.C. (2016). Estimation of generalized DINA model with order restrictions.? Journal of Classification, 33(3), 460-484.

      Lee, Y., Park, Y. S., Taylan, D. (2011). Acognitive diagnostic modeling of attribute mastery in Massachusetts, Minnesota, and the U. S. national sample using the TIMSS 2007. International Journal of Testing, 11(2), 144-177.

      Leighton, J. P., & Gierl, M. J. (2007). Cognitive diagnostic assessment for education-theory and applications. Cambridge: Cambridge University Press.

      Li, M., Shavelson, R. J., Kupermintz, H., & Ruiz-Primo, M. A. (2002). On the relationship between mathematics and science achievement in the United States. In D. F. Robitaille & A. E. Beaton (Eds.), Secondary analysis of the TIMSS data (pp. 233-249). Norwell, MA: Kluwer Academic Publisher.

      Li, T., Jiao, H., Macready, G. B. (2016). Differentapproaches to covariate inclusion in the mixture rasch model. Educational and Psychological Measurement, 76(5), 848-872.

      Maris, E. (1999). Estimating multiple classification latent class models. Psychometrika, 64(2), 187-212.

      Ma, W., & de la Torre, J. (2016). A sequential cognitive diagnosis model for polytomous responses. British Journal of Mathematical and Statistical Psychology, 69(3), 253-275.

      Junker, B. W., & Sijtsma, K. (2001). Cognitive assessment models with few assumptions, and connections with nonparametric item response theory. Applied Psychological Measurement, 25(3), 258-272.

      Kahraman, N. (2014). An explanatory item response theory approach for a computer-based case simulation test. Eurasian Journal of Educational Research, 14(54), 117-134.

      Rupp, A., Templin, J., Henson, R. A. (2010). Diagnostic measurement: Theory, methods, and applications.New York: Guilford Press.

      Templin, J. L., & Henson, R. A. (2006). Measurement of psychological disorders using cognitive diagnosis models. Psychological Methods, 11(3), 287-305.

      Park, Y. S., & Lee, Y. (2014). Anextension of the DINA model using covariates: Examining factors affecting response probability and latent classification. Applied Psychological Measurement, 38(5), 376-390.

      Park, Y. S., Xing, K., Lee, Y. (2017). Explanatorycognitive diagnostic models: Incorporating latent and observed predictors. Applied Psychological Measurement, 42(5), 376-392.

      vonDavier, M. (2005). A general diagnostic model applied to language testing data(ETS Research Report no. RR-05-16). Princeton, NJ: Educational Testing Service.

      Incorporating Covariates Information in Polytomous Responses Cognitive Diagnosis Model

      ZHOU Wenjie1, GUO Lei1,2

      (1 Faculty of Psychology, Southwest University, Chongqing 400715, China)

      (2 Southwest University Branch, Collaborative Innovation Center of Assessment toward Basic Education Quality, Chongqing 400715, China)

      Abstract

      Covariates play an important role in psychological and educational studies, which can be used as control variables or regulatory factors in modelling. A few studies involve covariates information in Cognitive diagnosis models (CDMs). However, these studies have some issues that need to be solved. First, the current covariate extension models cannot analyze these polytomous responses. Second, the category covariates included in these studies are only dichotomous variables (such as gender). It cannot handle multi-category covariate information, such as grade and family socioeconomic status.

      This paper proposed the GPDM-C (The covariate extension of General polytomous diagnosis model) that incorporates both continuous and multi-category covariates in the polytomous response cognitive diagnosis framework. For simplicity, the saturated GPDM-C model was constrained as a reduced model, named the GPDINA-C model. MCMC algorithm was implemented in JAGS software to complete parameter estimation.

      In order to evaluate the parameter estimation accuracy of the GPDINA-C model, showing the advantages of incorporatingcovariates in the polytomous responses model, three factors (item quality, test length, and covariates effect size) were considered in a simulation study. The results indicated that: (1) The MCMC algorithm can accurately estimate all GPDINA-C model parameters. (2) Both person parameters and structure parameters recovery of GPDINA-C outperform the recovery of GPDINA.

      Finally, an empirical research is applied to examine the performance of the GPDINA-C model in practice. The results indicate that GPDINA-C hada smaller DIC value than the GPDINA model did, which manifests that the GPDINA-C had a better fit for this empirical data. Furthermore, the covariates parameters of the GPDINA-C can infer the influence of covariates on attribute mastery objectively.

      Key words:? cognitive diagnosis; covariates information; polytomous responses cognitive diagnosis model; MCMC

      景德镇市| 阜南县| 清徐县| 麟游县| 西藏| 夏河县| 郎溪县| 武川县| 阿拉尔市| 新泰市| 满洲里市| 剑川县| 南部县| 太仆寺旗| 大关县| 尉氏县| 中江县| 砀山县| 房产| 云梦县| 偏关县| 漯河市| 甘泉县| 东阳市| 巴林左旗| 灌云县| 勃利县| 嵊州市| 镶黄旗| 视频| 文昌市| 商河县| 安远县| 洛扎县| 内江市| 东丰县| 延川县| 浦城县| 化州市| 松溪县| 临猗县|