劉彥樓 吳瓊瓊
認知診斷模型Q矩陣修正:完整信息矩陣的作用*
劉彥樓1吳瓊瓊2
(1曲阜師范大學教育大數據研究院;2曲阜師范大學心理學院, 山東 濟寧 273165)
Q矩陣是CDM的核心元素之一, 反映了測驗的內部結構和內容設計, 通常由領域專家根據經驗進行主觀界定, 因此需要對可能存在的錯誤進行修正。本研究提出了一種新的Q矩陣修正方法——基于完整經驗交叉相乘信息矩陣的Wald-XPD方法。采用Monte Carlo模擬檢驗了新方法的表現, 并與同類方法進行了比較。研究表明:新開發(fā)的Wald-XPD方法在Q矩陣恢復率、保留正確標定屬性的比例以及修正錯誤標定屬性的比例這3個主要指標上均有較好的表現, 且整體上優(yōu)于其他方法, 尤其是在修正錯誤標定的屬性方面。通過實證數據展示了Wald-XPD方法在Q矩陣修正中的良好表現??傊? 本研究為Q矩陣修正提供了有效的方法。
認知診斷模型, Q矩陣, XPD矩陣, Wald檢驗
經典心理測量理論及項目反應理論采用單一的測驗分數來描述被試在某個階段的學習效果。作為新一代心理測量理論, 認知診斷(cognitive diagnosis)的主要目的是提供關于被試的多維、細粒度潛在特質(如知識、認識過程、技能、策略、人格特質或心理障礙等, 統稱為屬性)的診斷性評價信息, 認知診斷模型(cognitive diagnostic model, CDM)是研究者為了實現以上主要目的而提出的一類離散潛變量模型(Rupp et al., 2010)。目前, CDM已廣泛應用于心理、教育、精神病理學等領域(Sorrel et al., 2016)。
Q矩陣是CDM的核心元素之一, 定義了測驗所測屬性與項目之間的對應關系(Tatsuoka, 1990), 它不僅決定著測驗的內部結構, 也關系到認知診斷結果的準確性。正確設定的Q矩陣是獲得準確的模型參數估計和被試分類的關鍵因素(Nájera et al., 2020), 錯誤設定的Q矩陣會產生很多不良的影響, 如降低模型參數估計準確性、導致較差的模型?數據擬合、導致錯誤的屬性估計和被試分類等(Chiu, 2013; de la Torre, 2009; Rupp & Templin, 2008)。CDM中獲取Q矩陣的方法主要是由領域專家根據經驗構建(Sorrel et al., 2016), 但這種方法包含一定的主觀性。實踐中, 原始Q矩陣有較大可能包含一些錯誤設定(Rupp & Templin, 2008), 如何修正原始Q矩陣中可能存在的錯誤是研究者面臨的重要理論與現實問題。
在飽和CDM框架下開發(fā)的以上8種參數化Q矩陣修正方法中, 殘差方法對于屬性過度設定不敏感且在測驗長度較短時統計檢驗力可能會偏低; 當樣本量較小時, TLP方法會高估錯誤設定項目的數量且用于減少錯誤報告率的重抽樣校正方法(bootstrap bagging method)的耗時可能會特別長; 模擬研究表明iGDI的表現與iJSD的表現相當、甚至在一些條件下優(yōu)于iJSD (Terzi, 2017); 相對擬合統計量方法需要比較測驗的所有項目關于屬性所有可能組合的相對擬合值, 盡管研究者提出一些減少計算次數的方法, 但是在測驗長度較長或屬性數量較多的情況下, 計算耗時仍有可能特別長。GDI在飽和CDM框架下采用單個項目所有可能的屬性掌握模式中正確答對概率的方差來衡量Q矩陣中相對應的q向量的區(qū)分能力, 選擇有最大區(qū)分能力的q向量作為正確設定的q向量。相對于GDI而言, iGDI的估計效果有了一定程度的改善, 但是這類方法的主要缺點是需要人為地確定一個截止值(Nájera et al., 2019)。以GDI研究為基礎, Ma和de la Torre (2020)將Q矩陣修正的視角延伸到多級計分模型, 在seq-GDINA模型(the sequential GDINA model; Ma & de la Torre, 2016)下提出了GDI和基于不完整信息矩陣的Wald檢驗相結合的Wald-IC方法。Wald-IC方法首先采用GDI方法從單一屬性的q向量中確定第一個所需屬性, 再逐步多次采用Wald統計量決定是否增加或刪除屬性來選擇恰當的q向量。即, 在單個項目上Wald-IC僅需執(zhí)行? 1個統計檢驗即可完成。Hull方法試圖在模型擬合與簡約之間找到一種平衡以此選擇恰當的q向量, 研究者(Nájera et al., 2021)通過模擬研究比較了GDI、Wald-IC以及Hull方法, 結果表明在大多數條件下Hull的表現最好、Wald-IC的表現稍遜于Hull。但是, Hull和Wald-IC在修正錯誤標定的屬性方面的表現較差, 尤其是Q矩陣中存在較多錯誤設定時。研究者(Ma & de la Torre, 2020; Nájera et al., 2021)構建的Wald-IC統計量是使用不完整信息矩陣計算的。先前研究表明, 采用不完整信息矩陣構建的統計量在后續(xù)研究中會導致一些問題, 如低估模型參數標準誤(Philipp et al., 2018)、用于項目功能差異檢驗及項目水平模型比較時導致一類錯誤控制率膨脹(Liu, Andersson, et al., 2019; Liu, Yin, et al., 2019; 劉彥樓等, 2016)等?;诖? 本研究認為Wald-IC方法在修正錯誤標定屬性方面表現較差的主要原因可能是在Wald統計量的計算中采用了不完整的信息矩陣。
研究者(Liu et al., 2016; Liu, Xin, et al., 2019; Liu et al., 2021; Philipp et al., 2018; 劉彥樓等, 2016)認為CDM中同時存在兩種類型的模型參數:項目參數和結構參數。不完整信息矩陣(de la Torre, 2009; 2011)忽略了結構參數, 計算量較小, 有較大可能導致Q矩陣修正結果不夠準確。以往研究者提出了多種完整信息矩陣估計方法(Liu, Xin, et al., 2019; Liu et al., 2021; Philipp et al., 2018; 劉彥樓等, 2016), 但是這些關于模型參數的信息矩陣無法直接用于Q矩陣修正中Wald統計量的計算, 因為此類Wald統計量中使用的是關于模型參數的方差?協方差矩陣。此外, 與其他完整信息矩陣相比, 經驗交叉相乘信息矩陣(empirical cross-product informationmatrix, XPD; Liu et al., 2021; Philipp et al., 2018; 劉彥樓等, 2016)計算量較小, 故本研究在包含全部模型參數的XPD矩陣的基礎上, 經過轉換獲得關于項目正確作答概率的方差?協方差矩陣, 以此構建用于Q矩陣修正的Wald統計量(記為Wald-XPD)。
本文的主要目的在于提出一種新的Q矩陣修正方法, 并通過模擬研究與實證數據分析考察新方法的表現。模擬研究參考了以往研究者研究中采用的模擬條件(de la Torre & Chiu, 2016; Ma & de la Torre, 2020; Nájera et al., 2021), 考察新開發(fā)的方法在Q矩陣修正中的表現, 并與同類方法進行比較, 希望能夠為實踐研究者在Q矩陣修正方法的選用方面提供方法支持。本研究選擇GDI、Hull、Wald-IC方法與Wald-XPD方法進行比較的原因是:首先, Wald-XPD是在Wald-IC方法基礎上提出的, 新方法與舊方法表現的異同有待探索; 其次, 先前研究表明在GDI、Hull、Wald-IC三種方法中, Hull的表現是最好的, 故有必要比較Hull與Wald-XPD兩種方法的表現; 第三, 限制GDI及iGDI方法實踐應用的主要原因是這兩種方法均需要人為地設置一個截止值, 與iGDI相比, 固定的截止值對GDI方法的影響相對較小(Nájera et al., 2020), 因此本研究將GDI也納入比較。本文的第二部分介紹了以往研究者在飽和的CDM框架下提出的參數化Q矩陣修正方法。第三部分介紹了新開發(fā)的Wald-XPD方法。第四部分采用模擬研究, 在較廣泛和真實的條件下探索Wald-XPD方法的具體表現, 并與GDI、Hull以及Wald-IC方法進行比較。第五部分探討Wald-XPD方法在實證數據分析中的應用, 并與Hull方法、Wald-IC方法進行比較。最后對Wald-XPD方法進行了討論與展望。
截止值用來判斷一個q向量的PVAF是否合適。一個正確設定的q向量需要滿足兩個條件:(1)PVAF大于截止值; (2)包含的屬性數最少。若多個q向量同時滿足以上兩個條件, 則選擇PVAF值最大的q向量作為正確設定的q向量。
Hull方法(Nájera et al., 2021)的基本原理是:在項目水平上比較所有可能q向量的擬合指標。將所有可能的q向量呈現在Hull圖上, Hull圖的橫坐標表示與每個q向量相關的參數數量, 縱坐標表示擬合指標。Hull方法選取的擬合指標有兩個:第一個是PVAF, 用來評估不同q向量的項目區(qū)分度大小; 第二個是絕對模型擬合指McFadden pseudo-2(McFadden, 1974), 用于衡量觀察反應中方差所占的比例, 評估獲得的估計值與觀察反應之間的擬合度(Hull方法的兩個指標在下文分別表示為HullP和HullR)。選擇項目中不同參數數量下有最大PVAF或McFadden pseudo-2值的q向量作為候選q向量, 任意兩個候選q向量之間會形成一條線段, 將該線段下方的所有q向量移除, 故Hull圖成一條單調遞增的曲線。假設項目的= 3, 那么以PVAF為指標的Hull圖如圖1所示, 圖中上方藍色字體表示候選q向量, 下方黑色字體表示該候選q向量的PVAF。
圖1 K = 3時, 以PVAF為指標的Hull圖
對于Hull方法的兩個擬合指標而言, 添加項目中相關聯的屬性會顯著增加擬合指標的值; 添加不關聯的屬性也會增加擬合指標的值, 但影響可能較小。故從擬合?簡約相平衡的視角出發(fā), 在Hull圖中選擇先使擬合指標顯著增加, 然后使擬合指標平緩增加的候選q向量作為正確設定的q向量?;诖? 研究者采用指數(Ceulemans & Kiers, 2006)計算每個候選q向量的拐角大小(the magnitude of the elbow), 選擇指數最大的候選q向量作為正確設定的q向量:
用于Q矩陣修正的Wald統計量也是在項目水平上進行的, 其基本原理是:假設項目所對應的q向量定義了2個及以上的屬性, 如果將某一屬性從q向量中移除而沒有導致模型?數據擬合變差, 那么這個屬性就不是必需的。為便于理解, 現舉例說明。假設一個測驗共測量了2個屬性, 即= 2, 那么, 所有可能的屬性掌握模式有4種, 可以表示為:
Wald-IC統計量的形式為:
在構建Wald統計量之前, 本研究首先對XPD矩陣做了以下三個方面的處理:
(3)對比完整和不完整信息矩陣可知, 完整信息矩陣考慮模型中的全部參數, 計算量較大, 修正過程較為耗時。故本研究采用C++語言編寫XPD矩陣, 提高Q矩陣修正的速度。
本研究新提出的Wald-XPD方法的修正步驟如下:
步驟(1):選擇項目中具有最大PVAF值的單一屬性q向量中包含的屬性為第一個所需屬性, 更新集合A、B。
步驟(2):將該單一屬性q向量的PVAF值與0.95進行比較, 大于0.95說明該q向量是合適的, 停止修正, 否則繼續(xù)修正。
步驟(3):更新集合A、B。選出具有較大PVAF的q向量進行修正, 將該q向量中各屬性使用Wald-XPD統計量進行顯著性檢驗, 確定該q向量對應的集合A和集合B中的屬性是否應該移除或添加, 然后判斷q向量的PVAF是否大于0.95, 大于0.95說明這個q向量是合適的, 停止修正, 否則繼續(xù)修正。
步驟(4):重復步驟(3), 直到某個q向量的PAVF值大于0.95, 或者沒有屬性移除或添加則停止修正。
步驟(5):在單個項目修正結束后, 重新計算PVAF以及Wald-XPD統計量, 直到達到最大迭代或者某次迭代結束后的q向量與前一次迭代的q向量完全相等則停止修正。
為了便于理解, 現舉例說明Wald-XPD方法用于某個項目的q向量的修正算法。假設項目中q向量的屬性數= 3, Wald-XPD方法修正該q向量的過程如圖2所示。
模擬研究的目的是在較為廣泛和真實的條件下探討Wald-XPD方法在Q矩陣修正中的表現, 并與以往研究者提出的GDI、Wald-IC以及Hull (HullP、HullR)方法進行比較。
4.1.1 研究設計
為便于比較, 本研究參考以往研究設計(Ma & de la Torre, 2020; Nájera et al., 2021), 共操縱了5種因素:項目數和屬性數的比例(ratio of number of items to attribute,)、樣本量()、Q矩陣錯誤設定的比例(Q-matrix misspecification rate,)、屬性分布(attribute distribution,)、項目質量(item quality,)。本研究將屬性數設置為= 4, 因為這是應用類文章中最經常出現的屬性數(Nájera et al., 2020)。以往研究中常用的項目數是11到30 (Sessoms & Henson, 2018), 故本研究將項目數設置為16和32, 所以, 本研究共考慮2種測驗結構:= 16[(= 4)× (= 4)]、= 32[(= 4)×(= 8)]。樣本量有兩個水平:500和1000 (Chen, 2017; de la Torre, 2011; Ma & de la Torre, 2016), 分別代表小樣本和大樣本。本研究共有48個實驗條件, 各因素水平如表1所示。
圖2 Wald-XPD方法用于向量的修正流程圖
表1 模擬研究中各因素水平匯總
4.1.2 數據生成
項目質量分為高、中、低3個水平。高項目質量:P(0) ~(0, 0.2)且P(1) ~(0.8, 1); 中等項目質量:P(0) ~(0.1, 0.3)且P(1) ~(0.7, 0.9); 低項目質量:P(0) ~(0.2, 0.4)且P(1) ~(0.6, 0.8)。其中,P(0)表示僅憑猜測答對的概率,P(1)表示掌握項目所要求的全部屬性的被試答對該項目的概率。成功的概率有兩種限制:(1)項目反應函數在屬性數上具有單調性; (2)與單個屬性相聯系的項目參數的總和限制為大于0.15。這兩個條件保證所有的屬性都具有不可忽視的作用。
真實Q矩陣符合以下限制:(1)每個Q矩陣至少包含兩個單位矩陣(identity matrix); (2)除了兩個單位矩陣外, 每個項目至少測量一個屬性; (3) Q矩陣由1個屬性q向量(50%)、2個屬性q向量(25%)和3個屬性q向量(25%)組成。這個比例主要是參考之前研究(Nájera et al., 2021), 使用較高比例的單一屬性q向量的原因是滿足每個Q矩陣至少包含兩個單位矩陣的模型可識別條件(Gu et al., 2018)。錯誤設定的Q矩陣的比例為:0.15和0.3。錯誤設定是在兩個約束條件下隨機引入:(1)所有項目必須至少測量一個屬性; (2)始終保留一個單位矩陣。
在每個條件下, 均生成500個數據集, 每個數據集中生成新的真實Q矩陣和項目參數。所有的模擬研究和分析都在R軟件中進行。
4.1.3 評價指標
QRR (Q-matrix recovery rate)用來測量Q矩陣的恢復比例, 可以表示為:
TPR (true positive rate)表示保留正確標定屬性的比例:
TNR (true negative rate)表示修正錯誤標定屬性的比例:
本研究除了使用QRR、TPR、TNR來考察各個方法總體的表現之外, 還參考其他指標來獲得更加全面具體的結果。OS表示過度設定, US (under- specifications)表示吝嗇設定, 表達式分別為:
以上5個指標從不同方面反映了Q矩陣的修正效果。其中, QRR、TPR、TNR的值越高, 表示該修正方法的Q矩陣恢復率以及保留正確標定屬性和修正錯誤標定屬性的比例越高, 修正效果越好。OS和US的值越小, 表示該修正方法存在較少過度設定和吝嗇設定的趨勢, 修正效果越好。
4.2.1 GDI、Hull、Wald-IC以及Wald-XPD在各因素不同水平上的表現
表2呈現了GDI、Hull (HullP、HullR)、Wald-IC以及Wald-XPD方法在各因素不同水平上的QRR、TPR、TNR、OS和US值, 表中加粗數據是相同條件下的最優(yōu)結果。
首先, 比較的是各實驗條件的綜合影響。Q矩陣錯誤設定的比例、項目質量、樣本量以及屬性分布對于GDI、Wald-IC、Hull (HullP、HullR)以及Wald-XPD方法在各個指標上的表現有明顯影響。除Hull (HullP、HullR)方法的TPR指標受項目質量的影響較小外, 在項目質量較高的條件下, 所有方法的表現均優(yōu)于其他水平。Q矩陣錯誤設定的比例和樣本量對于4種方法在各個指標上的表現也存在一定的影響, 隨著Q矩陣錯誤設定的比例降低和樣本量增大, 4種方法均有更好的Q矩陣修正表現。均勻分布下, 4種方法在各個指標上的表現均優(yōu)于高階分布。就因素而言,對于GDI、Wald-IC和Wald-XPD在QRR指標上的表現, 以及所有的修正方法在TNR指標上的表現影響明顯, 所有指標在= 8水平下的結果優(yōu)于= 4。
其次, 比較的是4種修正方法的綜合表現。所有方法在QRR以及TPR指標上沒有表現出明顯優(yōu)劣。其中, 本研究中新提出的Wald-XPD在TNR指標上的表現明顯優(yōu)于其他方法; GDI在OS指標上的表現較優(yōu), 但是在US指標上表現相對較差; HullR在OS指標上的表現較差, 但是在US指標上表現相對較優(yōu); Wald-IC在US指標上表現相對較差。
根據以上綜合比較可知, Wald-XPD以及HullP在各個指標上有相對較好的表現, 且在TNR指標上Wald-XPD的表現最好。此外, 鑒于Wald-XPD是在Wald-IC基礎上新提出的方法, 故接下來本研究主要探討Wald-XPD、Wald-IC以及HullP方法在QRR、TPR以及TNR這3個主要指標上的具體表現, 并重點關注Wald-XPD在TNR指標上的表現, 即Wald-XPD修正Q矩陣中錯誤標定屬性的能力。
4.2.2 Wald-XPD在修正錯誤標定屬性時的表現
圖3呈現的是HullP、Wald-IC以及Wald-XPD方法在48種具體的模擬條件下獲得的QRR的值。由圖3可知, 項目質量對于這3種方法的表現影響最為明顯, 隨著項目質量的提高, QRR的值也在增加。另外, 樣本量、Q矩陣錯誤設定的比例以及屬性分布對于這3個方法在QRR指標上的表現稍有影響, 且趨勢一致。就QRR指標而言, HullP、Wald-IC以及Wald-XPD方法的表現僅有細微差異, 即當= 0.4時Wald-XPD的表現略微低于另外兩種方法。
圖4呈現的是3種方法在TPR指標上的表現。由圖4可知, 在所有條件下Wald-IC以及HullP方法均能獲得較高的TPR值。項目質量對于Wald- XPD方法的表現有一定的影響, 當項目質量較低時, Wald-XPD在TPR指標上的表現不如Wald-IC以及HullP方法; 隨著項目質量的提高, 3種方法在TPR指標上的表現相當。
表2 不同因素水平的結果
注:粗體表示各指標不同水平下的最好結果。
圖3 HullP、Wald-IC與Wald-XPD方法在QRR指標上的表現
圖4 HullP、Wald-IC與Wald-XPD方法在TPR指標上的表現
圖5呈現的是3種方法在TNR指標上的表現。在所有條件下, Wald-XPD方法在TNR指標上的表現均是最優(yōu)的, 對比Wald-XPD方法在TPR及TNR上的表現可知, 低項目質量條件對這個方法產生了一些不利影響, 而在中等或高項目質量條件下, Wald-XPD能有效保留Q矩陣中正確標定的屬性, 也能有效修正Q矩陣中錯誤標定的屬性。測驗長度較短、項目質量較低及Q矩陣錯誤設定比例較高時HullP方法的表現較差, 結合同樣條件下HullP在TPR指標上的表現可知, 雖然HullP方法在保留正確標定屬性方面略微優(yōu)于Wald-XPD, 但是它較多地保留了錯誤標定的屬性。即, HullP方法傾向于較少地修正原始Q矩陣中的屬性。在低項目質量條件下的多數情景中, 雖然Wald-IC方法在TNR上的表現優(yōu)于HullP, 但是在隨著項目質量的提高HullP在多數情景中的表現優(yōu)于Wald-IC。HullP、Wald-IC以及Wald-XPD方法在TNR指標上的表現受樣本量、測驗長度、項目質量、屬性分布及錯誤設定比例的影響明顯。隨著Q矩陣錯誤設定比例降低、項目質量提高、測驗長度增加, HullP和Wald-IC方法的TNR值有所提高, 但仍低于Wald-XPD方法的TNR值。
圖5 HullP、Wald-IC與Wald-XPD方法在TNR指標上的表現
本研究在飽和G-DINA模型框架下, 使用HullP、Wald-IC以及Wald-XPD方法對原始Q矩陣進行了修正。表3中的結果顯示, HullP方法共修正了6個元素, Wald-IC方法共修正了5個元素, Wald-XPD方法一共修正了16個元素, Wald-IC方法修正的5個元素均包括在Wald-XPD方法修正的元素之中。使用相對擬合、絕對擬合及近似擬合指標比較原始Q矩陣、HullP、Wald-IC及Wald-XPD方法修正后的Q矩陣的模型?數據擬合表現。擬合指標包括:相對擬合指標AIC (Akaike information criterion)和BIC (Bayesian information criterion)、有限信息絕對擬合(limited-information absolute fit)指標2及近似擬合指標RMSEA2(root mean square error of approximation; Liu et al., 2016), 結果見表4。就相對擬合指標而言, QHullP獲得最佳的AIC指標, QXPD的AIC指標與其接近; QXPD獲得最佳的BIC指標, 其次是QIC, QHullP的BIC指標最差。即, Wald-XPD方法修正后的Q矩陣的相對擬合指標更優(yōu)。在絕對擬合指標2上, QIC的< 0.01, 表明Wald-IC方法修正的Q矩陣與數據失擬; QHullP和QXPD的值分別為:0.029和0.019, 表明HullP和Wald-XPD方法修正后的Q矩陣沒有在0.01顯著性水平上拒絕模型?數據擬合的原假設。對于RMSEA2指標而言, 其值越接近0修正效果越好, 其中QXPD的RMSEA2最接近于0, 即QXPD在RMSEA2指標上有最好的表現(Liu et al., 2016)。綜合考慮相對擬合、絕對擬合和近似擬合指標, 本研究認為Wald-XPD方法修正后的Q矩陣在模型?數據擬合方面表現最優(yōu)。
表3 原始Q矩陣以及各方法對屬性的修正情況
注:*為Wald-XPD方法調整的屬性, #為Wald-IC方法調整的屬性, ^為HullP方法調整的屬性
表4 基于3種方法修正前后Q矩陣的擬合指標
需要特別說明的是, 本研究的目的是在一般性的CDM框架下開發(fā)具有廣泛適用性的Q矩陣修正方法。因此, 實證數據分析的重點是原始Q矩陣的修正, 沒有在飽和G-DINA模型的基礎上進一步在項目水平上進行模型比較(Liu, Andersson, et al., 2019)。另外,2統計量在模型參數過度設定時, 即模型中冗余參數過多時, 可能存在統計檢驗力不足的問題(參考Chen et al., 2018)。舉例而言, 對比原始Qoriginal矩陣及修正后的QXPD矩陣可知, Qoriginal中可能存在較多過度設定的元素, 因此, 導致Qoriginal的2統計量的值大于0.01。參考先前研究(Liu et al., 2016), 本文認為在模型?數據擬合評價方面, 近似擬合統計量RMSEA2可能更具參考價值。
值得注意的是, 本研究中提出的Q矩陣修正方法是從作答數據出發(fā)的, 在一定程度上可以避免專家標定Q矩陣的主觀性, 減輕專家負擔, 但是客觀方法標定的Q矩陣不能直接作為最終的Q矩陣, 應該作為專家標定Q矩陣的重要參考(Xu & Shang, 2018)。
CDM依賴正確設定的Q矩陣以獲得準確的屬性剖面分類(Rupp & Templin, 2008)。以往研究者提出的GDI、Wald-IC、Hull方法在多數的應用情景中雖然有較好的表現, 但這些方法對Q矩陣中錯誤標定的屬性不夠敏感。本研究提出使用完整的XPD矩陣計算用于Q矩陣修正的方法(Wald-XPD方法), 并系統探討了樣本量、測驗長度、Q矩陣錯誤設定比例、屬性分布等因素對Q矩陣修正結果的影響。采用實證數據展示了新提出的Wald-XPD方法在實際應用中的表現與價值。
本研究結果表明:(1)整體而言, Wald-XPD方法的表現優(yōu)于GDI、Hull、Wald-IC方法。Wald-XPD方法能夠彌補GDI、Hull、Wald-IC方法在一些條件下對于錯誤標定屬性不敏感的不足之處, 且在Q矩陣恢復率和保留正確標定屬性的比例方面也有較好的表現。(2) GDI、Hull、Wald-IC和Wald-XPD方法隨著項目質量的提高、樣本量增大、測驗長度增加以及Q矩陣錯誤設定比例的降低, 在修正Q矩陣上有更好的表現。(3)由HullP、Wald-IC以及Wald-XPD方法進一步比較的結果可知, 3種方法在Q矩陣恢復率方面差異較小, HullP、Wald-IC在保留正確標定的屬性方面的表現略優(yōu)于Wald-XPD方法, 但在所有模擬條件下, Wald-XPD方法在修正錯誤標定的屬性方面的表現均優(yōu)于另外兩種方法。(4)實證數據分析的結果表明, Wald-XPD方法修正后的Q矩陣與原始數據有最優(yōu)的擬合度。
在本研究操縱的5種因素中, 項目質量對GDI、Hull、Wald-IC、Wald-XPD方法表現的影響較大, 樣本量和測驗長度也對4種修正方法的表現有一定的影響。出現這種現象的原因可能是, 項目質量越高、樣本量越大以及測驗長度越長, 被試觀察作答反應矩陣中包含的關于CDM中未知參數的信息越多, 因此, 以上4種方法的表現也就越好。與以往研究類似(Kang et al., 2019; Ma & de la Torre, 2020; Nájera et al., 2021), 本研究同樣認為屬性分布對于GDI、Hull、Wald-IC、Wald-XPD方法在TNR指標上的表現有細微的影響。出現這種現象的原因可能是, 當屬性服從均勻分布時所有可能屬性掌握模式分布的概率是相等的, 即被試觀察作答反應矩陣中包含的關于結構參數的信息是一樣的。當屬性服從高階分布時, 屬性之間存在一定的關聯性, 使某些屬性掌握模式分布的概率可能會比較高, 另外一些屬性掌握模式分布的概率會比較低, 故被試觀察作答反應矩陣中包含的結構參數的信息量較少。于是, 當屬性服從均勻分布時, 4種方法在各個指標上的表現略優(yōu)。Q矩陣錯誤設定的比例對GDI、Wald-IC、Hull方法表現的影響較大, 隨著Q矩陣錯誤設定比例的降低, 它們能夠獲得更高的QRR、TPR和TNR值, 這與已有研究結果一致(Ma & de la Torre, 2020; Nájera et al., 2021)。然而, Q矩陣錯誤設定的比例對Wald-XPD方法表現的影響則相對較小, 結合Wald-XPD在TNR指標上的表現, 本研究認為可能是Wald-XPD在迭代結束前的循環(huán)中能夠有效修正Q矩陣錯誤標定的屬性。
此外, 研究結果表明, Wald-XPD方法在TPR和TNR指標上與Wald-IC、HullP方法的表現不同。在TPR指標上, Wald-XPD受項目質量低的影響明顯, 在TNR指標上, Wald-IC和HullP受項目質量低以及測驗長度短這兩種因素的影響明顯。TPR指標數值低, 說明Q矩陣修正方法傾向于修改正確標定的屬性, TNR數值低則說明Q矩陣修正方法修改錯誤標定屬性的能力弱。綜合TPR、TNR兩個指標可知, 雖然Wald-XPD方法在項目質量較低的條件下能夠較為有效地修正錯誤標定的屬性, 但是存在過度修改正確標定屬性的傾向。換言之, Wald-XPD方法雖然提高了Q矩陣修正的表現, 但是在項目質量較低的條件下, 有可能會錯誤地修正了正確標定的元素。Wald-IC以及HullP雖然在項目質量較低的條件下不存在過度修改正確標定屬性的傾向, 但卻無法有效修正錯誤標定的屬性, 尤其是HullP方法。所以, 本研究建議使用Q矩陣修正方法時, 需要注意項目質量, 若項目質量較低, 可以結合多種修正方法、參考專家意見進而獲得準確的Q矩陣。
本研究采用C++語言編寫XPD矩陣, 在一定程度上能夠提高Q矩陣修正的速度, 但是, 由于Wald-XPD方法考慮模型中的全部參數且采用迭代的方式進行, 在一些條件下可能耗時較長。例如, Wald-XPD方法最短的平均用時是12.50 s, 最長的平均時間需要746.01 s。Wald-XPD方法在各個模擬條件下的平均運行時間見表5。
本研究提出的Wald-XPD方法在Q矩陣修正中有較好的表現, 但仍存在一些不足之處, 值得后續(xù)研究者進一步探討。(1)雖然Wald-XPD統計量有明確的漸近分布(χ2分布), 不需要像GDI類方法那樣人為地確定一個截止值, 但限于研究目的和篇幅本文僅在0.05顯著性水平上對于Wald-XPD統計量的表現進行了顯著性檢驗, 未來研究者可以進一步探討不同的顯著性水平對于Wald-XPD統計量表現的影響。(2)本研究僅以完整信息矩陣中的XPD矩陣構建Wald統計量進行Q矩陣修正, 除了XPD矩陣之外, 研究者還可以將其他完整信息矩陣構建的Wald統計量用于Q矩陣修正, 如Liu等人(2021)提出改進的觀察信息矩陣以及三明治信息矩陣。不同類型的完整信息矩陣構建的Wald統計量在Q矩陣修正中的表現也值得進一步研究。(3)本研究僅在G-DINA模型下對Q矩陣修正方法進行了對比研究, G-DINA模型適用于0-1計分的測驗情景, 但在心理與教育測驗中存在較多的多級計分數據。研究者們開發(fā)了很多能用于多級計分的CDM, 如多級計分GDM (von Davier, 2008), 研究者可以將Wald- XPD方法拓展到多級計分模型中, 并考察其在多級計分模型中的表現。(4)本研究在考察新提出的Wald-XPD方法的表現時, 僅與一次修正的GDI、Wald-IC方法進行了比較, 研究者也認為GDI、Wald-IC方法可以迭代進行, 如迭代GDI方法(Nájera et al., 2020)。此外, 還有其他迭代修正的方法, 如迭代修正序列搜索(Terzi & de la Torre, 2018)等, 研究者也可以嘗試將這些方法與Wald-XPD方法進行比較。(5) Wang等人(2020)評估了在Q矩陣部分已知的情況下, GDI和Wald-IC方法在估計新項目的q向量中的表現。基于此, 未來研究者可以在Q矩陣部分已知的情況下進一步評估Wald-XPD方法估計Q矩陣的表現, 并與已有的Q矩陣估計方法, 如ICC-IR方法(汪大勛, 高旭亮, 蔡艷等, 2018)、似然比D2方法(喻曉鋒等, 2015)、非參數Q矩陣校準(Lim & Drasgow, 2017)、兩階段搜索算法(Feng, 2013)、似然比檢驗(Wang et al., 2020)等方法進行比較。
表5 Wald-XPD方法在各模擬條件下的平均運行時間(s)
注:*為Wald-XPD方法在模擬條件下的最長運行時間, #為Wald-XPD方法在模擬條件下的最短運行時間。
Chen, F., Liu, Y., Xin, T., & Cui, Y. (2018). Applying theMstatistic to evaluate the fit of diagnostic classification models in the presence of attribute hierarchies., Article 1875.
Chen, J. (2017). A residual-based approach to validate Q-matrix specifications.(4), 277–293.
Chiu, C.-Y. (2013). Statistical refinement of the Q-matrix in cognitive diagnosis.(8), 598–618.
De la Torre, J. (2008). An empirically based method of Q-matrix validation for the DINA model: Development and applications.(4), 343–362.
De la Torre, J. (2009). DINA model and parameter estimation: A didactic.(1), 115–130.
De la Torre, J. (2011). The generalized DINA model framework.(2), 179–199.
De la Torre, J., & Chiu, C.-Y. (2016). A general method of empirical Q-matrix validation.(2), 253–273.
De la Torre, J., & Douglas, J. A. (2004). Higher-order latent trait models for cognitive diagnosis.(3), 333–353.
Feng, Y. (2013).(Unpublished doctoral dissertation). University of South Carolina, Los Angeles, America.
Gu, Y., Liu, J., Xu, G., & Ying, Z. (2018). Hypothesis testing of the Q-matrix.(3), 515–537.
Heller, J., & Wickelmaier, F. (2013). Minimum discrepancy estimation in probabilistic knowledge structures., 49–56.
Kang, C. H., Yang, Y. K., & Zeng, P. H. (2019). Q-matrix refinement based on item fit statistic RMSEA.(7), 527–542.
Li, J., Mao, X., & Wei, J. (2022).A simple and effective new method of Q-matrix validation.(8), 996–1008.
[李佳, 毛秀珍, 韋嘉. (2022).一種簡單有效的Q矩陣修正新方法.(8), 996–1008.]
Li, J., Mao, X., & Zhang, X. (2021).Q-matrix estimation (validation) methods for cognitive diagnosis.(12), 2272–2280.
[李佳, 毛秀珍, 張雪琴. (2021). 認知診斷Q矩陣估計(修正)方法.(12), 2272–2280.]
Li, X., & Wang, W. (2015). Assessment of differential item functioning under cognitive diagnosis models: The DINA model example.(1), 28–54.
Lim, Y., & Drasgow, F. (2017). Nonparametric calibration of item-by-attribute matrix in cognitive diagnosis.(5), 562–575.
Liu, J., Xu, G., & Ying, Z. (2012). Data-driven learning of Q-matrix.(7), 548–564.
Liu, Y., Andersson, B., Xin, T., Zhang, H., & Wang, L. (2019). Improved Wald statistics for item-level model comparison in diagnostic classification models.,(5), 402–414.
Liu, Y., Tian, W., & Xin, T. (2016). An application of2statistic to evaluate the fit of cognitive diagnostic models.(1), 3–26.
Liu, Y., Xin, T., Andersson, B., & Tian, W. (2019). Information matrix estimation procedures for cognitive diagnostic models.(1), 18–37.
Liu, Y., Xin, T., & Jiang, Y. (2021). Structural parameter standard error estimation method in diagnostic classificationmodels: Estimation and application.Advance online publication. https://doi.org/ 10.1080/00273171.2021.1919048
Liu, Y., Xin, T., Li, L., Tian, W., & Liu, X. (2016). An improved method for differential item functioning detection in cognitive diagnosis models: An application of Wald statistic based on observed information matrix.(5), 588–598.
[劉彥樓, 辛濤, 李令青, 田偉, 劉笑笑. (2016). 改進的認知診斷模型項目功能差異檢驗方法——基于觀察信息矩陣的Wald統計量.(5), 588–598.]
Ma, W., & de la Torre, J. (2016). A sequential cognitive diagnosis model for polytomous responses.(3), 253–275.
Ma, W., & de la Torre, J. (2020). An empirical Q-matrix validation method for the sequential generalized DINA model.(1), 142–163.
McFadden, D. (1974). Conditional logit analysis of qualitative choice behavior. In P. Zarembka (Ed.),(pp. 105–142). New York, NY: Academic Press.
Nájera, P., Sorrel, M. A., & Abad, F. J. (2019). Reconsidering cutoff points in the general method of empirical Q-matrix validation.(4), 727–753.
Nájera, P., Sorrel, M. A., de la Torre, J., & Abad, F. J. (2020). Improving robustness in Q-Matrix validation using an iterative and dynamic procedure.(6), 431–446.
Nájera, P., Sorrel, M. A., de la Torre, J., & Abad, F. J. (2021). Balancing fit and parsimony to improve Q-matrix validation.B(Suppl 1), 110–130.
Philipp, M., Strobl, C., de la Torre, J., & Zeileis, A. (2018). On the estimation of standard errors in cognitive diagnosis models.(1), 88–115.
Rupp, A. A., & Templin, J. (2008). The effects of Q-matrix misspecification on parameter estimates and classification accuracy in the DINA model.(1), 78–96.
Rupp, A. A., Templin, J., & Henson, R. A. (2010).. Guilford.
Sessoms, J., & Henson, R. A. (2018). Applications of diagnostic classification models: A literature review and critical commentary.(1), 1–17.
Sorrel, M. A., Olea, J., Abad, F. J., de la Torre, J., Aguado, D., & Lievens, F. (2016). Validity and reliability of situational judgement test scores: A new approach based on cognitive diagnosis models.(3), 506–532.
Tatsuoka, K. K. (1990). Toward an integration of item-response theory and cognitive error diagnosis. In N. Frederiksen, R. Glaser, A. Lesgold, & M. Shafto (Eds.),(pp. 453–488). Hillsdale, NJ: Erlbaum.
Terzi, R. (2017).(Unpublished doctoral dissertation).The State University of New Jersey, New Brunswick, America.
Terzi, R., & de la Torre, J. (2018). An iterative method for empirically-based Q-matrix validation.(2), 248–262.
Tu, D., Cai, Y., & Dai, H. (2012). A new method of Q-Matrix validation based on DINA model.(4), 558–568.
[涂冬波, 蔡艷, 戴海琦. (2012). 基于DINA模型的Q矩陣修正方法.(4), 558–568.]
von Davier, M. (2008). A general diagnostic model applied to language testing data.(2), 287–307.
Wang, D., Cai, Y., & Tu, D. (2020). Q-matrix estimation methods for cognitive diagnosis models: Based on partial known Q-matrix.Advance online publication. https://doi.org/10.1080/ 00273171.2020.1746901
Wang, D., Gao, X., Cai, Y., & Tu, D. (2018). A new Q-matrix estimation method: ICC based on ideal response.(2), 466–474.
[汪大勛, 高旭亮, 蔡艷, 涂冬波. (2018). 一種非參數化的Q矩陣估計方法: ICC-IR方法開發(fā).(2), 466–474.]
Wang, D., Gao, X., Cai, Y., & Tu, D. (2020).A method of Q-matrix validation for polytomous response cognitive diagnosis model based on relative fit statistics.(1), 93–106.
[汪大勛, 高旭亮, 蔡艷, 涂冬波. (2020). 基于類別水平的多級計分認知診斷Q矩陣修正:相對擬合統計量視角.(1), 93–106.]
Wang, D., Gao, X., Han, Y., & Tu, D. (2018). A simple and effective Q-matrix estimation method: From non-parametric perspective.(1), 180–188.
[汪大勛, 高旭亮, 韓雨婷, 涂冬波. (2018). 一種簡單有效的Q矩陣估計方法開發(fā):基于非參數化方法視角.(1), 180–188.]
Wang, W., Song, L., Ding, S., Meng, Y., Cao, C., & Jie, Y. (2018). An EM-based method for Q-matrix validation.(6), 446–459.
Yu, X. F., & Cheng, Y. (2020). Data-driven Q-matrix validation using a residual-based statistic in cognitive diagnostic assessment.(Suppl 1), 145–179
Yu, X., Luo, Z., Qin, C., Gao, C., & Li, J. (2015). Joint estimation of model parameters and Q-matrix based on response data.(2), 273–282.
[喻曉鋒, 羅照盛, 秦春影, 高椿雷, 李喻駿. (2015). 基于作答數據的模型參數和Q矩陣聯合估計.(2), 273–282.]
An empirical Q-matrix validation method using complete information matrix in cognitive diagnostic models
LIU Yanlou1, WU Qiongqiong2
(1Academy of Big Data for Education; Qufu Normal University, Jining 273165, China)(2School of Psychology, Qufu Normal University, Jining 273165, China)
A Q-matrix, which defines the relations between latent attributes and items, is a central building block of the cognitive diagnostic models (CDMs). In practice, a Q-matrix is usually specified subjectively by domain experts, which might contain some misspecifications. The misspecified Q-matrix could cause several serious problems, such as inaccurate model parameters and erroneous attribute profile classifications. Several Q-matrix validation methods have been developed in the literature, such as the G-DINA discrimination index (GDI), Wald test based on an incomplete information matrix (Wald-IC), and Hull methods. Although these methods have shown promising results on Q-matrix recovery rate (QRR) and true positive rate (TPR), a common drawback of these methods is that they obtain poor results on true negative rate (TNR). It is important to note that the worse performance of the Wald-IC method on TNR might be caused by the incorrect computation of the information matrix.
A new Q-matrix validation method is proposed in this paper that constructs a Wald test with a complete empirical cross-product information matrix (XPD). A simulation study was conducted to evaluate the performance of the Wald-XPD method and compare it with GDI, Wald-IC, and Hull methods. Five factors that may influence the performance of Q-matrix validation were manipulated. Attribute patterns were generated following either a uniform distribution or a higher-order distribution. The misspecification rate was set to two levels:= 0.15 and= 0.3. Two sample sizes were manipulated: 500 and 1000. The three levels of IQ were defined as high IQ,P(0) ~(0, 0.2) andP(1) ~(0.8, 1); medium IQ, P(0) ~(0.1, 0.3) andP(1) ~(0.7, 0.9); and low IQ, P(0) ~(0.2, 0.4) andP(1) ~(0.6, 0.8). The number of attributes was fixed at= 4. Two ratios of the number of items to attribute were considered in the study:= 16[(= 4)×(= 4)] and= 32[(= 4)×(= 8)].
The simulation results showed the following.
(1) The Wald-XPD method always provided the best results or was close to the best-performing method across the different factor levels, especially in the terms of the TNR. The HullP and Wald-IC methods produced larger values of QRR and TPR but smaller values of TNR. A similar pattern was observed between HullP and HullR, with HullP being better than HullR. Among the Q-matrix validation methods considered in this study, the GDI method was the worst performer.
(2) The results from the comparison of the HullP, Wald-IC, and Wald-XPD methods suggested that the Wald-XPD method is more preferred for Q-matrix validation. Even though the HullP and Wald-IC methods could provide higher TPR values when the conditions were particularly unfavorable (e.g., low item quality, short test length, and low sample size), they obtain very low TNR values. The practical application of the Wald-XPD method was illustrated using real data.
In conclusion, the Wald-XPD method has excellent power to detect and correct misspecified q-entry. In addition, it is a generic method that can serve as an important complement to domain experts’ judgement, which could reduce their workload.
cognitive diagnostic models, Q-matrix, XPD information matrix, Wald test
2022-03-09
* 國家自然科學基金青年項目(31900794)、山東省自然科學基金項目(ZR2019BC084)資助。
吳瓊瓊為共同第一作者。
B841
劉彥樓, E-mail: liuyanlou@163.com