(江西師范大學(xué)心理學(xué)院, 江西省心理與認(rèn)知科學(xué)重點(diǎn)實(shí)驗(yàn)室, 南昌 330022)
認(rèn)知診斷理論(Cognitive diagnosis theory)是認(rèn)知心理學(xué)與心理計(jì)量學(xué)相結(jié)合的產(chǎn)物, 通常是在心理計(jì)量學(xué)模型中融合了相關(guān)認(rèn)知變量來(lái)實(shí)現(xiàn)對(duì)被試的診斷及分類(lèi)。目前心理測(cè)量學(xué)者們開(kāi)發(fā)了 60多種認(rèn)知診斷計(jì)量模型(Fu & Li, 2007), 比較成熟的有 Tatsuoka (1995, 2009) 的規(guī)則空間模型(Rule Space Model), Junker和 Sijtsma (2001)的 DINA 模型, Leighton, Gierl和Hunka (2004)以及Leighton和Gierl (2007)的屬性層次模型(Attribute Hierarchy Model), Hartz, Roussos和Stout (2002)的融合模型(Fusion Model), von Davier (2005)的GDM (general diagnosis model)等等。
在實(shí)現(xiàn)診斷的過(guò)程中, 有的認(rèn)知診斷模型需要用到屬性層級(jí)關(guān)系(attribute hierarchy, Leighton,Gierl & Hunka, 2004), 如RSM、AHM等, 本文將這一類(lèi)模型稱(chēng)為“含層級(jí)關(guān)系的認(rèn)知診斷模型”; 還有許多模型在實(shí)現(xiàn)診斷過(guò)程中無(wú)需用到屬性層級(jí)關(guān)系, 如DINA模型、Fusion模型、GDM等, 將之稱(chēng)為“不含層級(jí)關(guān)系的認(rèn)知診斷模型”?!昂瑢蛹?jí)關(guān)系的認(rèn)知診斷模型”由于充分利用了認(rèn)知屬性間的邏輯關(guān)系, 從而大大簡(jiǎn)化(減少)了可能的屬性掌握模式, 但前提是要能準(zhǔn)確界定屬性間的層級(jí)關(guān)系;“不含層級(jí)關(guān)系的認(rèn)知診斷模型”在實(shí)現(xiàn)診斷時(shí)并不考慮屬性間的關(guān)系, 而是把所有可能的屬性掌握模式均囊括在內(nèi), 算法上顯得相對(duì)復(fù)雜, 但優(yōu)點(diǎn)是無(wú)需構(gòu)建屬性間的層級(jí)關(guān)系。
在北京、天津和深圳的基礎(chǔ)教育階段學(xué)科認(rèn)知診斷實(shí)踐中, 我們發(fā)現(xiàn)認(rèn)知屬性(cognitive attribute)間的層級(jí)關(guān)系界定比較困難, 有時(shí)甚至是有豐富教學(xué)經(jīng)驗(yàn)的專(zhuān)家對(duì)屬性間層級(jí)關(guān)系的認(rèn)定也存在較大分歧(甚至專(zhuān)門(mén)從事心理測(cè)量的專(zhuān)家也是如此),尤其是在文科領(lǐng)域中(如語(yǔ)文、政治、歷史等), 認(rèn)知屬性間的關(guān)系往往是錯(cuò)綜復(fù)雜。因此, 在實(shí)踐中,由于認(rèn)知診斷工作的高度復(fù)雜性, 在很多領(lǐng)域中,人們很難對(duì)屬性層級(jí)關(guān)系做出科學(xué)的標(biāo)定(也很難判斷所標(biāo)定的屬性層級(jí)關(guān)系的科學(xué)性程度到底有多高), 那么在這種情況下, 人們?cè)撊绾卧诒姸嗟恼J(rèn)知診斷模型中來(lái)進(jìn)行選擇呢?如果屬性層級(jí)關(guān)系認(rèn)定較難或拿不準(zhǔn)時(shí), 該如何選用模型呢?屬性層級(jí)關(guān)系如果被錯(cuò)誤界定, 它對(duì)診斷的影響如何?各認(rèn)知診斷模型對(duì)屬性層級(jí)關(guān)系的依賴(lài)程度如何?等一系列涉及認(rèn)知診斷模型比較與選用的基礎(chǔ)性研究問(wèn)題是本研究擬探討的問(wèn)題。
查閱國(guó)內(nèi)外相關(guān)文獻(xiàn), 我們發(fā)現(xiàn), 關(guān)于認(rèn)知診斷模型的比較及選用的基礎(chǔ)性研究國(guó)內(nèi)外均非常薄弱。并且對(duì)于認(rèn)知診斷模型的比較研究一般均是假設(shè)屬性層級(jí)關(guān)系無(wú)誤情況下進(jìn)行的(如陳德枝,戴海琦, 趙頂位, 2009; 孫佳楠, 張淑梅, 辛濤, 包玨, 2011; 等), 但關(guān)于屬性層級(jí)關(guān)系有誤(即屬性層級(jí)關(guān)系被錯(cuò)誤界定)情況下, 不同認(rèn)知診斷模型的比較研究國(guó)內(nèi)外均未見(jiàn)報(bào)道。在實(shí)際工作中, 由于屬性間的關(guān)系錯(cuò)綜復(fù)雜, 屬性層級(jí)關(guān)系的認(rèn)定也比較困難, 從而導(dǎo)致屬性間層級(jí)關(guān)系被錯(cuò)誤界定的現(xiàn)象時(shí)有發(fā)生(Tatsuoka, 2009)。因此, 本研究以屬性層級(jí)關(guān)系為切入點(diǎn), 重點(diǎn)考察不同認(rèn)知診斷模型對(duì)屬性層級(jí)關(guān)系的依賴(lài)程度以及屬性層級(jí)關(guān)系的錯(cuò)誤界定對(duì)認(rèn)知診斷模型診斷正確率的影響, 這對(duì)于實(shí)際運(yùn)用者在認(rèn)知診斷模型比較及選用上具有重要的參考價(jià)值。
本研究主要開(kāi)展了三項(xiàng)研究:研究一是考察屬性層級(jí)關(guān)系正確界定情況下, 各認(rèn)知診斷模型診斷正確率的比較; 研究二主要考察屬性層級(jí)關(guān)系錯(cuò)誤界定情況下, 各認(rèn)知診斷模型診斷正確率的比較;研究三是屬性層級(jí)關(guān)系正、誤兩種情況下各認(rèn)知診斷模型的判準(zhǔn)率的變化/降幅比較, 以充分考察各認(rèn)知診斷模型對(duì)屬性層級(jí)關(guān)系的依賴(lài)程度, 從而為實(shí)際應(yīng)用者選用模型提供參考。
DINA模型是當(dāng)前應(yīng)用較為廣泛的認(rèn)知診斷模型(DeCarlo, 2011), 大量研究(Cheng, 2008; Rupp &Templin, 2008)表明該模型具有較高的診斷正確率,因此本研究中“不含層級(jí)關(guān)系的認(rèn)知診斷模型”主要考察DINA模型; “含層級(jí)關(guān)系的認(rèn)知診斷模型”主要涉及RSM、AHM (本研究采用AHM中的A方法, 簡(jiǎn)記為 AHM_A)、孫佳楠等(2011)的廣義距離法(GDD)、以及我們?cè)贒INA模型基礎(chǔ)上改進(jìn)的含階層關(guān)系的 DINA模型, 稱(chēng)為 DINA_HC。DINA_HC模型是在DINA模型的EM算法參數(shù)估計(jì)的過(guò)程中, 將所有不符合屬性階層關(guān)系的掌握模式的先驗(yàn)概率設(shè)定為 0即可, 這樣在EM迭代過(guò)程中被試的掌握模式均符合屬性層級(jí)關(guān)系, 因此DINA_HC模型也需事先界定屬性間的層級(jí)關(guān)系。
本文之所以選取以上五種認(rèn)知診斷模型進(jìn)行比較, 一是這幾個(gè)模型具有相似的數(shù)理結(jié)構(gòu), 均屬于非補(bǔ)償(noncompensatory)、連接型(disjunctive)的認(rèn)知診斷模型; 二是國(guó)內(nèi)外關(guān)于這些模型的討論較多。當(dāng)然對(duì)于其它更多類(lèi)型認(rèn)知診斷模型的比較還有待未來(lái)進(jìn)一步探討。
本研究采用Leighton等人(2004)提出的四種基本的屬性層級(jí)關(guān)系結(jié)構(gòu)—— 線(xiàn)型、收斂型、分支型和無(wú)結(jié)構(gòu)型, 詳見(jiàn)附錄1。
采用屬性邊際判準(zhǔn)率(Average Attribute Match Ratio, AAMR)、模式判準(zhǔn)率(Pattern Match Ration,PMR)二個(gè)指標(biāo)為評(píng)價(jià)指標(biāo):
N
為被試總數(shù),N
表示被試i
的整個(gè)屬性掌握模式是否判對(duì), 判對(duì)為1, 判錯(cuò)為0;K
為屬性個(gè)數(shù),N
表示被試i
的屬性k
是否判對(duì),判對(duì)為1, 判錯(cuò)為0。分別模擬附錄1中四種屬性層級(jí)關(guān)系的測(cè)驗(yàn)結(jié)構(gòu), 根據(jù)屬性間的層級(jí)關(guān)系, 我們可以導(dǎo)出每種層級(jí)關(guān)系下所有可能的測(cè)驗(yàn)項(xiàng)目考核模式(即簡(jiǎn)化 Q矩陣), 它們分別為6種、7種、15種和32種項(xiàng)目考核模式, 見(jiàn)圖1。
為了盡量保證不同屬性層級(jí)關(guān)系測(cè)驗(yàn)項(xiàng)目數(shù)基本一致, 我們讓四種簡(jiǎn)化Q矩陣分別在測(cè)驗(yàn)中重復(fù)出現(xiàn)5次、5次、2次和1次, 這樣四種結(jié)構(gòu)的屬性層級(jí)關(guān)系的測(cè)驗(yàn)長(zhǎng)度分別30、35、30和32題, 被試樣本容量為1000人。
(1)被試屬性掌握模式真值。根據(jù)屬性層級(jí)關(guān)系,可以得出四種基本結(jié)構(gòu)層級(jí)關(guān)系下被試掌握模式的種類(lèi)分別為7種、8種、16種和33種(均比項(xiàng)目考核模式多了一個(gè)全為 0的模式), 分別將這幾種掌握模式平均分配給 1000名被試, 對(duì)于不能均分的, 隨機(jī)指派給被試。
(2)被試作答反應(yīng)矩陣。根據(jù)被試掌握模式真值及2.1部分中的測(cè)驗(yàn)Q矩陣設(shè)計(jì), 在沒(méi)有任何猜測(cè)及失誤的情況下, 模擬被試在測(cè)驗(yàn)項(xiàng)目上的理想作答; 然后采用 Leighton等人(2004)的模擬方法,在理想作答基礎(chǔ)上, 模擬作答反應(yīng)失誤概率(即slip)分別為 2%, 5%, 10%的情況下被試的作答反應(yīng)矩陣。
(3)每種測(cè)驗(yàn)情景均實(shí)驗(yàn)30次。
圖1 四種屬性層級(jí)關(guān)系所對(duì)應(yīng)的簡(jiǎn)化Q矩陣
表1 五個(gè)認(rèn)知診斷模型的屬性判準(zhǔn)率(30次實(shí)驗(yàn)平均)
表1和圖2是在不同屬性層級(jí)關(guān)系和不同失誤概率(Slip)下, 五個(gè)認(rèn)知診斷模型的屬性邊際判準(zhǔn)率(AAMR)和模式判率(PMR)結(jié)果。
從表1可知, 五個(gè)認(rèn)知診斷模型中, 不論是屬性邊際判準(zhǔn)率(AAM)還是模式判準(zhǔn)率(PMR), RSM和AHM兩個(gè)模型相對(duì)較差(尤其是RSM); GDD、DINA_HC和DINA三個(gè)模型的判準(zhǔn)率較高, AAMR和PMR基本上在95%和90%以上, 這三個(gè)模型相比較而言, DINA_HC和DINA較GDD稍好一些。同時(shí), 加了層級(jí)關(guān)系的 DINA模型(即 DINA_HC)與不加層級(jí)關(guān)系的 DINA模型對(duì)屬性判準(zhǔn)率(含AAMR和PMR)并無(wú)本質(zhì)上改善。表1中還可知, 被試作答的失誤率(slip)越大, 五種模型的診斷正確率越低。
圖2說(shuō)明, 四種層級(jí)關(guān)系中, 線(xiàn)型層級(jí)關(guān)系下模型的判準(zhǔn)率最高, 其次分別是收斂型、分支型和無(wú)結(jié)構(gòu)性。這說(shuō)明屬性間存在層級(jí)關(guān)系的診斷正確率比無(wú)層級(jí)關(guān)系的要高, 屬性間層級(jí)關(guān)系越密切的,其診斷正確率也越高。
綜上, 研究者在實(shí)際選用模型時(shí), 如果屬性階級(jí)關(guān)系能正確界定(或?qū)傩蚤g層級(jí)關(guān)系比較容易界定), 且要保證診斷正確率(含 AAMR和 PMR)在90%以上, 建議采用DINA、DINA_HC或GDD三個(gè)認(rèn)知診斷模型進(jìn)行診斷分析, 而不宜采用 RSM和AHM。
圖2 不同屬性層級(jí)關(guān)系下認(rèn)知診斷模型判準(zhǔn)率比較(平均的slip)
為了更為細(xì)致分析屬性層級(jí)關(guān)系對(duì)各認(rèn)知診斷模型判準(zhǔn)率的影響, 我們?cè)谘芯慷兄攸c(diǎn)討論當(dāng)屬性間的層級(jí)關(guān)系被錯(cuò)誤界定的情況下, 各認(rèn)知診斷模型判準(zhǔn)率, 從而為實(shí)際應(yīng)用者在模型選用上進(jìn)一步提供參考和借鑒。
研究二中, 被試得分矩陣、測(cè)驗(yàn)Q矩陣和被試掌握模式的模擬均與研究一相同, 但在實(shí)現(xiàn)對(duì)被試的認(rèn)知診斷過(guò)程中, RSM、AHM、GDD和DINA_HC均采用被錯(cuò)誤界定的屬性層級(jí)關(guān)系進(jìn)行診斷分析(DINA模型在診斷中未用到層級(jí)關(guān)系), 從而進(jìn)一步考察屬性層級(jí)關(guān)系被錯(cuò)誤界定對(duì)這幾類(lèi)模型診斷正確率的影響。
與研究一相一致。但在模擬作答時(shí), 為便于說(shuō)明問(wèn)題及簡(jiǎn)化實(shí)驗(yàn), 研究二中的失誤的概率Slip只討論一種情況, 即Slip=0.05的情況。
主要模擬分支型、收斂型及線(xiàn)性三種屬性層級(jí)關(guān)系被錯(cuò)誤界定。為便于說(shuō)明問(wèn)題, 研究中屬性層級(jí)關(guān)系的錯(cuò)誤類(lèi)型主要有“屬性間的層級(jí)關(guān)系被顛倒”、“有層級(jí)關(guān)系的變有無(wú)層級(jí)關(guān)系”, “無(wú)層級(jí)關(guān)系的變?yōu)橛袑蛹?jí)關(guān)系”, 以及“屬性層級(jí)關(guān)系錯(cuò)亂”等幾種常見(jiàn)錯(cuò)誤類(lèi)型(見(jiàn)附錄 1); 同時(shí)模擬時(shí), 并不改變?cè)瓕傩詫蛹?jí)關(guān)系的類(lèi)型:即原來(lái)是線(xiàn)性的屬性層級(jí)關(guān)系, 模擬有誤的屬性層級(jí)關(guān)系仍為線(xiàn)性; 原來(lái)是分支型的屬性層級(jí)關(guān)系, 模擬有誤的屬性層級(jí)關(guān)系仍為分支型, 以此類(lèi)推?,F(xiàn)對(duì)附錄1中“線(xiàn)型”和“分支型”為例加以說(shuō)明:(1)線(xiàn)型:A1至A6共6個(gè)屬性呈線(xiàn)型關(guān)系, “錯(cuò)誤A型”中的錯(cuò)誤發(fā)生在A5和A6上, “A5以A6為先決條件(即只有掌握A5才有可能掌握A6)”被錯(cuò)誤地界定為“A6以A5為先決條件”, 其余屬性間的關(guān)系無(wú)誤; “錯(cuò)誤B型”中的錯(cuò)誤發(fā)生在A4和A5上, “A4以A5為先決條件”被錯(cuò)誤的界定為“A5以A4為先決條件”, 其余屬性間的關(guān)系無(wú)誤。(2)分支型:A1至 A6共6個(gè)屬性呈分支型關(guān)系, “錯(cuò)誤E型”中屬性A2與屬性A4有層級(jí)關(guān)系, 但被錯(cuò)誤的界定為無(wú)層級(jí)關(guān)系且呈并列型,屬性A1與A4本無(wú)直接的層級(jí)關(guān)系, 被錯(cuò)誤的界定為有直接的層級(jí)關(guān)系; “錯(cuò)誤F型”是屬性A2與A4有層級(jí)關(guān)系, 與 A5和 A6無(wú)層級(jí)關(guān)系, 同時(shí)屬性A3與A5和A6有層級(jí)關(guān)系。但被錯(cuò)誤的界定為:A2與A4無(wú)直接層級(jí)關(guān)系, 與A5和A6有層級(jí)關(guān)系, 屬性A3與A5和A6無(wú)層級(jí)關(guān)系。
由于不含層級(jí)關(guān)系的認(rèn)知診斷模型在實(shí)現(xiàn)診斷過(guò)程中無(wú)需用到屬性層級(jí)關(guān)系, 而含層級(jí)關(guān)系的認(rèn)知診斷模型則離不開(kāi)屬性層級(jí)關(guān)系, 因此這些被錯(cuò)誤界定的屬性層級(jí)關(guān)系被用于含層級(jí)關(guān)系的認(rèn)知診斷模型的診斷過(guò)程中。比如:RSM、AHM、GDD及DINA_HC模型, 其理想掌握模式和反應(yīng)模式均由錯(cuò)誤界定的屬性層級(jí)關(guān)系導(dǎo)出/模擬, 并用于實(shí)現(xiàn)對(duì)被試的認(rèn)知診斷。
表2是屬性層級(jí)關(guān)系被錯(cuò)誤界定情況下五個(gè)模型的判準(zhǔn)率。表2中, 當(dāng)屬性間層級(jí)關(guān)系被錯(cuò)誤界定時(shí), RSM、AHM和GDD三種診斷方法屬性判準(zhǔn)率均非常不理想, AAMR不到80%, 而PMR也不到70%, 三種認(rèn)知診斷模型的診斷正確率受層級(jí)關(guān)系準(zhǔn)確性的影響較大; 相比較而言, DINA_HC模型的AAMR在95%以上, 而PMR也高達(dá)85%以上, 這說(shuō)明 DINA_HC模型受屬性層級(jí)關(guān)系的影響不如RSM、AHM和GDD三個(gè)模型大。由于DINA模型在診斷過(guò)程中, 未應(yīng)用到屬性間的層級(jí)關(guān)系, 因此它的判準(zhǔn)率與研究一基本一致, AAMR和PMR均在95%以上。
表2還表明, 對(duì)于 RSM、AHM、GDD和DINA_HC四個(gè)模型, 屬性間層級(jí)關(guān)系被錯(cuò)誤界定時(shí), 線(xiàn)型層級(jí)關(guān)系下模型的診斷正確率最低, 其次是收斂型, 最后是分支型, 這一結(jié)果與研究一(即屬性間層級(jí)關(guān)系無(wú)誤情況下)完全相反, 這說(shuō)明在錯(cuò)誤界定層級(jí)關(guān)系前提下, 不同層級(jí)關(guān)系類(lèi)型對(duì)模型的診斷正確率也有影響, 屬性間關(guān)系越為密切,則影響也顯得越大。
為了進(jìn)一步細(xì)致分析屬性層級(jí)關(guān)系正誤對(duì)模型診斷正確率影響程度, 我們?cè)谘芯恳缓脱芯慷幕A(chǔ)上, 比較了屬性層級(jí)關(guān)系正確情況下和錯(cuò)誤情況下, 五個(gè)模型診斷正確率的降幅比較(見(jiàn)表 3及圖 3)。表 3和圖 3表明, GDD模型的降幅最大(AAMR的降幅最高達(dá) 47%, PMR最大降幅高達(dá)84%), RSM 和 AHM 其次(AAMR的最大降幅約44%, PMR最大降幅約70%), DINA_HC模型的降幅相對(duì)較小(AAMR的最大降幅約3%, PMR最大降幅約 14%), 這進(jìn)一步表明 RSM、AHM、GDD和DINA_HC四個(gè)模型的診斷正確率均不程度地受屬性層級(jí)關(guān)系準(zhǔn)確性的影響, 但對(duì)前三者的影響非常大, 對(duì) DINA_HC的影響相對(duì)比較小, 而 DINA模型由于未使用屬性層級(jí)關(guān)系從而未受影響。
圖3還表明, 模型判準(zhǔn)率的降幅還受屬性層級(jí)關(guān)系類(lèi)型的影響, 即線(xiàn)型層級(jí)關(guān)系判準(zhǔn)率的降幅(含AAMR和PMR)最大, 其次為收斂型, 最后為分支型。進(jìn)一步說(shuō)明, 在屬性層級(jí)關(guān)系正誤兩種情況下, 屬性間層級(jí)關(guān)系越密切, 其診斷正確率的降幅也越大。
綜上, 我們可看出, RSM、AHM、GDD和DINA_HC四個(gè)模型由于在實(shí)現(xiàn)診斷過(guò)程中均應(yīng)用到了屬性間的層級(jí)關(guān)系, 因此它們的診斷正確率均會(huì)受屬性層級(jí)關(guān)系準(zhǔn)確性的影響, 其中影響最大的是GDD、RSM和AHM三個(gè)模型, DINA_HC模型的影響相對(duì)比較小。而DINA模型由于在實(shí)現(xiàn)診斷過(guò)程中未應(yīng)用到屬性層級(jí)關(guān)系, 因此它的診斷正確率未受影響。
因此研究者在實(shí)際應(yīng)用時(shí), 如果屬性層級(jí)關(guān)系難于界定(或懷疑被錯(cuò)誤界定)時(shí), 建議首選 DINA模型, 當(dāng)然DINA_HC也可又進(jìn)一步考慮使用。
本研究主要是從屬性層級(jí)關(guān)系入手, 重點(diǎn)比較了幾種常用非補(bǔ)償型認(rèn)知診斷模型的計(jì)量學(xué)特征(即診斷正確率), 研究發(fā)現(xiàn):
(1) RSM 和 AHM 兩個(gè)模型的診斷正確率(含AAMR和 PMR)相對(duì)較低, GDD、DINA_HC和DINA三個(gè)模型的診斷正確率(含 AAMR和 PMR)較高; 而 GDD、DINA_HC和 DINA三個(gè)模型中,DINA_HC和DINA較GDD稍好一些。
(2)被試作答的失誤率(slip)越大, 五個(gè)模型的診斷正確率均越低。
(3)四種基本的層級(jí)關(guān)系中, 線(xiàn)型層級(jí)關(guān)系下五個(gè)模型的判準(zhǔn)率最高, 其次分別是收斂型、分支型和無(wú)結(jié)構(gòu)性。屬性間有層級(jí)關(guān)系的診斷正確率比無(wú)層級(jí)關(guān)系的要高, 屬性間層級(jí)關(guān)系越密切的, 其診斷正確率也越高。
(1) RSM、AHM和GDD三種診斷方法屬性判準(zhǔn)率均非常不理想, 且與屬性層級(jí)關(guān)系無(wú)錯(cuò)誤情況下相比, 診斷正確率的降幅非常大, 這三個(gè)認(rèn)知診斷受屬性層級(jí)關(guān)系的準(zhǔn)確性的影響較大;DINA_HC模型受屬性層級(jí)關(guān)系的影響相對(duì)較小;而 DINA模型由于在診斷過(guò)程中未使用屬性層級(jí)關(guān)系, 因此DINA模型不受其影響。
(2)相比較而言, 線(xiàn)型層級(jí)關(guān)系下, RSM、AHM、GDD和DINA_HC四個(gè)模型的診斷正確率最低, 其次是收斂型, 最后是分支型, 這一結(jié)果與“屬性間層級(jí)關(guān)系無(wú)誤情況下”完全相反, 這表明在層級(jí)關(guān)系有誤的情況下, 不同的層級(jí)關(guān)系對(duì)模型的診斷正確率也有影響。
表2 屬性層級(jí)關(guān)系被錯(cuò)誤界定情況下五個(gè)模型的判準(zhǔn)率(Slip=0.05)
表3 屬性層級(jí)關(guān)系正、誤情況下模型判準(zhǔn)率降幅比較(Slip=0.05)
圖3 屬性層級(jí)關(guān)系正誤兩種情況下判準(zhǔn)率的降幅比較(Slip=0.05)
由于DINA模型在實(shí)現(xiàn)認(rèn)知診斷的過(guò)程中未充分考慮認(rèn)知屬性(cognitive attribute)間的邏輯關(guān)系即屬性層級(jí)關(guān)系(attribute hierarchy, Leighton, Gierl& Hunka, 2004), 因而有時(shí)會(huì)估計(jì)出不符合屬性邏輯關(guān)系的知識(shí)狀態(tài)(knowledge states), 從而進(jìn)一步影響了該模型的可解釋性。本研究針對(duì)當(dāng)前DINA模型的這一不足, 將DINA模型與屬性層級(jí)關(guān)系相結(jié)合, 開(kāi)發(fā)了含屬性層級(jí)關(guān)系的 DINA模型, 即DINA_HC模型, 研究發(fā)現(xiàn)在屬性層級(jí)關(guān)系無(wú)誤情況下, DINA_HC模型具有較高的診斷正確率(優(yōu)于RSM和AHM, 略?xún)?yōu)于GDD, 與DINA基本相當(dāng)),且不會(huì)出現(xiàn)不符合屬性邏輯關(guān)系的知識(shí)狀態(tài)(knowledge states), 值得借鑒。
對(duì)于眾多的認(rèn)知診斷模型, 實(shí)踐應(yīng)用者該如何來(lái)選用模型呢?本文通過(guò) Monte Carlo模擬研究,以屬性層級(jí)關(guān)系為視角, 對(duì)這一問(wèn)題進(jìn)行了初步探討。具體模擬了兩種實(shí)驗(yàn)條件下(屬性層級(jí)關(guān)系的正與誤), 對(duì)五個(gè)認(rèn)知診斷模型進(jìn)行了比較, 從而為應(yīng)用者提供參考與借鑒。我們認(rèn)為一個(gè)診斷正確率低的認(rèn)知診斷模型(CDM)不能被認(rèn)為是一個(gè)優(yōu)良的模型, 即從計(jì)量學(xué)本身而言, 模型就不具備優(yōu)良性能; 實(shí)際應(yīng)用者應(yīng)盡量選用具有優(yōu)良性能的CDM。通過(guò)研究我們認(rèn)為:對(duì)于本文所討論的幾種非補(bǔ)償、連接型的認(rèn)知診斷模型, 研究者在實(shí)際使用時(shí), 如果屬性階級(jí)關(guān)系能正確界定(或?qū)傩蚤g層級(jí)關(guān)系比較容易界定), 且要保證診斷正確率(含AAMR 和 PMR)在 90%以上, 建議首選 GDD、DINA_HC或 DINA等認(rèn)知診斷模; 而如果屬性層級(jí)關(guān)系難于界定(或懷疑被錯(cuò)誤界定)時(shí), 則建議首選DINA模型, 當(dāng)然本研究開(kāi)發(fā)的DINA_HC也可又進(jìn)一步考慮使用。
本研究討論的五種模型中, DINA模型在實(shí)現(xiàn)診斷時(shí)可以不構(gòu)建屬性間的層級(jí)關(guān)系(即將所有可能的知識(shí)狀態(tài)均囊括其中), 且模型的診斷正確較高(Cheng, 2008; Rupp & Templin, 2008), 因此就這幾種模型比較而言, DINA模型在實(shí)踐中顯得更為靈活。但這是否就意味著研究者或應(yīng)用者在實(shí)踐中就不必去探討屬性間的關(guān)系呢?我們的回答是否定的。在認(rèn)知診斷中, 除了要選好恰當(dāng)?shù)恼J(rèn)知診斷模型以外, 編制科學(xué)的診斷工具—— 認(rèn)知診斷測(cè)驗(yàn)也是不可或缺的。認(rèn)知診斷測(cè)驗(yàn)的編制不同于傳統(tǒng)能力測(cè)驗(yàn)編制, 它更多強(qiáng)調(diào)心理學(xué)理論尤其是認(rèn)知心理學(xué)理論對(duì)測(cè)驗(yàn)編制的指導(dǎo)作用(Leighton &Gierl, 2007)。因此對(duì)欲診斷的目標(biāo)進(jìn)行科學(xué)的認(rèn)知分析、探清認(rèn)知屬性間的關(guān)系(不一定是層級(jí)關(guān)系)顯得十分必要, 它對(duì)認(rèn)知診斷測(cè)驗(yàn)的項(xiàng)目設(shè)計(jì)(item design)、試題開(kāi)發(fā)、保證診斷功能的實(shí)現(xiàn)具有重要意義, 從而為開(kāi)發(fā)科學(xué)的認(rèn)知診斷測(cè)驗(yàn)提供基礎(chǔ)。因此, 在開(kāi)展認(rèn)知診斷工作時(shí), 對(duì)診斷目標(biāo)采用一定的心理學(xué)方法(如認(rèn)知心理學(xué)研究范式)進(jìn)行科學(xué)的認(rèn)知分析顯得十分重要。當(dāng)然, 在認(rèn)知診斷實(shí)踐中, 研究者或應(yīng)用者既要開(kāi)發(fā)/編制科學(xué)的診斷工具—— 認(rèn)知診斷測(cè)驗(yàn), 又要選好恰當(dāng)?shù)挠?jì)量分析模型—— 認(rèn)知診斷模型, 兩者兩樣重要, 它們都是保證診斷效果的基礎(chǔ)。
RSM、AHM和GDD三個(gè)模型在實(shí)現(xiàn)對(duì)被試診斷分類(lèi)的過(guò)程中, 均需根據(jù)屬性層級(jí)關(guān)系將所有可能的知識(shí)狀態(tài)的全集進(jìn)行壓縮(即剔除不合屬性層級(jí)關(guān)系的知識(shí)狀態(tài)), 然后采用一定方法(如馬氏距離、相似度等)將被試判為“壓縮后的知識(shí)狀態(tài)”的某一種。在這個(gè)過(guò)程中, 如果屬性層級(jí)關(guān)系錯(cuò)誤, 則會(huì)導(dǎo)致壓縮后的知識(shí)狀態(tài)有誤, 從而影響模型的診斷正確率, 因此這三模型的判準(zhǔn)率顯然會(huì)受到屬性階層關(guān)系正確性的影響; 對(duì)于 DINA 模型(還有Fusion model、GDM等), 在實(shí)現(xiàn)對(duì)被試的診斷的過(guò)程中, 將所有可能的知識(shí)狀態(tài)均囊括其中(即共 2種知識(shí)狀態(tài)), 不對(duì)知識(shí)狀態(tài)進(jìn)行壓縮, 并采用參數(shù)估計(jì)的方法(如EM算法、MCMC算法)實(shí)現(xiàn)對(duì)被試知識(shí)狀態(tài)的估計(jì), 因而對(duì)屬性層級(jí)關(guān)系的依賴(lài)程度不如RSM、AHM和GDD三個(gè)模型。
本研究?jī)H以屬性層級(jí)關(guān)系為切入點(diǎn), 從計(jì)量學(xué)的角度出發(fā), 根據(jù)模型的診斷正確率, 對(duì)幾種常用非補(bǔ)償型認(rèn)知診斷模型進(jìn)行比較與選擇。我們認(rèn)為:一個(gè)診斷正確率低的CDM不能被認(rèn)為是一個(gè)優(yōu)良的模型, 即從計(jì)量學(xué)本身而言, 模型就不具備優(yōu)良性能。實(shí)際應(yīng)用者應(yīng)盡量選用計(jì)量特性好的CDM。正是基于此考慮, 所以本研究從模型計(jì)量特征入手, 重點(diǎn)分析CDM的屬性判準(zhǔn)率(即診斷正確率)。當(dāng)然本研究并沒(méi)有解決模型選擇/比較的所有問(wèn)題, 因?yàn)槟P瓦x擇除了要考慮模型計(jì)量特征外,還涉及到具體測(cè)驗(yàn)情景、試題特征、測(cè)驗(yàn)內(nèi)容、測(cè)驗(yàn)形式、測(cè)驗(yàn)數(shù)據(jù)的計(jì)分方式、資料-模型的擬合情況等等多種因素, 當(dāng)然這些問(wèn)題也不可能在一個(gè)研究中能得到所有回答。因此本研究只是在一定條件下(即不考慮或固定其它因素條件下), 以屬性層級(jí)關(guān)系為切入點(diǎn), 從模型判準(zhǔn)率這一個(gè)計(jì)量因素來(lái)進(jìn)行模型比較與選用研究。
當(dāng)然, 限于文章篇幅、時(shí)間及能力, 本研究還存在一些不足:本研究只是從屬性層級(jí)關(guān)系角度來(lái)比較認(rèn)知診斷模型, 未來(lái)研究還可以從更多的角度(如模型的認(rèn)知假設(shè)、模型與數(shù)據(jù)的擬合等)進(jìn)行比較; 本文主要討論了五種非補(bǔ)償、連接型認(rèn)知診斷模型, 其它還更多類(lèi)型的認(rèn)知診斷模型(如補(bǔ)償型認(rèn)知診斷模型、多策略認(rèn)知診斷模型等等)還有待未來(lái)進(jìn)一步探討; 同時(shí), 認(rèn)知屬性層級(jí)關(guān)系的錯(cuò)誤類(lèi)型還可以進(jìn)一步豐富等等。我們也非常希望通過(guò)本文的研究, 能起到拋磚引玉的作用, 讓更多研究者投入到“認(rèn)知診斷模型比較與選用”這一基礎(chǔ)性領(lǐng)域研究中來(lái), 從而為實(shí)際工作者和應(yīng)用者為提供更多的指導(dǎo)和借鑒。
Chen, D.Z., Dai, H.Q., & Zhao, D.W.(2009).Comparing the diagnostic accuracy between the rule space approach and attribute hierarchy method.Psychological Science, 32
(2),414–416.[陳德枝, 戴海琦, 趙頂位.(2009).規(guī)則空間方法與屬性層次方法的診斷準(zhǔn)確性比較.心理科學(xué), 32
(2), 414–416.]Cheng, Y.(2008).Computerized adaptive testing: New development and applications
.Unpublished doctoral dissertation, University of Illinois at Urbana-Champaign.DeCarlo, L.T.(2011).On the analysis of fraction subtraction data: The DINA model, classification, latent class sizes,and Q-matrix.,Applied Psychological Measurement, 3
5(1),8–24.Fu, J., & Li, Y.(2007, Apirl).Cognitively diagnostic psychometric models: An integrative review
.Paper presented at the National Council on Measurement in Education, Chicago, IL.Hartz, S., Roussos, L., & Stout, W.(2002).A bayesian framework for the unified model for assessing cognitive abilities: Blending theory with practicality.Unpublished doctoral dissertation, University of Illinois at Urbana-Champaign.
Junker, B., & Sijtsma, K.(2001).Cognitive assessment models with few assumptions, and connections with nonparametric item response theory.Applied Psychological Measurement
,25
(3), 258–272.Leighton, J.P., & Gierl, M.(2007).Cognitive diagnostic assessment for education: Theory and Applications.Cambridge (pp242–274), UK: Cambridge uUniversity Press.
Leighton, J.P., Gierl M., & Hunka, S.M.(2004).The attribute hierarchy method for cognitive assessment: A variation on Tatsuoka’s rule-space approach.Journal of eEducational mMeasurement, 41
(3), 205–236.Rupp, A.A., & Templin, J.(2008).The effects of Q-Matrix misspecification on parameter estimates and classification accuracy in DINA model.Educational and Psychological Measurement, 68
(1), 78–96.Sun J.N., & Zhang, S.M., & Xin, T., & Bao, Y.(2011).A cognitive diagnosis method on Q-Matrix and generalized distance.Acta Psychology Sinica, 43
(9), 1095–1102.[孫佳楠, 張淑梅, 辛濤, 包玨.(2011).基于 Q 矩陣和廣義距離的認(rèn)知診斷方法.心理學(xué)報(bào), 43
(9), 1095–1102.]Tatsuoka, K.K.(1995).Architecture of knowledge structure and cognitive diagnosis: A statistical pattern recognition and classification approach.In P.D.Nichols, S.F.Chipman& R.L.Brennan (Eds.),Cognitively Diagnostic Assessment
(pp.327–361).Hillsdale, NJ: Erlbaum.Tatsuoka, K.K.(2009).Cognitive Assessment: An introduction of the rule space method
.New York: Routledge: Taylor &Francis Group.von Davier, M.(2005).A general diagnostic model applied to language testing data.
ETS Research Report( No.RR-05-16), Princeton, NJ: ETS.