• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于屬性多級(jí)化的認(rèn)知診斷計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)設(shè)計(jì)與實(shí)現(xiàn)*

      2015-02-05 09:13:42涂冬波
      心理學(xué)報(bào) 2015年11期
      關(guān)鍵詞:題庫(kù)測(cè)驗(yàn)選題

      涂冬波 蔡 艷

      (江西師范大學(xué)心理學(xué)院,江西省心理與認(rèn)知科學(xué)重點(diǎn)實(shí)驗(yàn)室,南昌 330022)

      1 引言

      認(rèn)知診斷計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn) (Computerized Adaptive Testing for Cognitive Diagnosis,CD-CAT)建立在傳統(tǒng) CAT的基礎(chǔ)之上,同時(shí)賦予傳統(tǒng) CAT新的功效——認(rèn)知診斷。它是將認(rèn)知診斷的基本理論、方法與計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)相結(jié)合的產(chǎn)物。CD-CAT因充分結(jié)合了認(rèn)知診斷和計(jì)算化自適應(yīng)測(cè)驗(yàn)的雙重優(yōu)點(diǎn)而深受?chē)?guó)內(nèi)外研究者推崇。但就目前國(guó)內(nèi)外研究來(lái)看,CD-CAT中涉及的屬性和測(cè)驗(yàn) Q矩陣的元素基本都是由 0-1組成(Cheng,2009;Wang,Chang & Huebner,2011; Wang,2013; Mao &Xin,2013; Hsu,Wang,& Chen,2013; Chen,Liu,&Ying,2014; 陳平,辛濤,2011; 涂冬波,蔡艷,戴海琦,2013; 汪文義,丁樹(shù)良,宋麗紅,2014),即

      a

      =1說(shuō)明被試i掌握了屬性k; 若

      a

      = 0說(shuō)明被試i未掌握屬性k; 若

      q

      = 1說(shuō)明項(xiàng)目j測(cè)量了屬性k; 若

      q

      = 0說(shuō)明項(xiàng)目j未考察/測(cè)量屬性k。在傳統(tǒng)0-1化的屬性基礎(chǔ)上,為了更為細(xì)致地考察被試具體掌握了屬性的哪個(gè)水平層次以及細(xì)化項(xiàng)目測(cè)量的屬性水平層次,學(xué)者們開(kāi)始提出了屬性多級(jí)化思想(Karelitz,2004; de la Torre,Lam,Rhoads,& Tjoe,2010; Chen & de la Torre,2013),用于考察被試具體掌握/達(dá)到屬性的哪種水平; 多級(jí)化屬性中,知識(shí)狀態(tài)取值不僅是 0-1,也可以是其它取值,用于表明被試掌握了屬性的哪種水平層次,如

      α

      = 0代表被試j未掌握屬性k (即Level 0),

      α

      = 1代表被試i掌握了屬性k的水平1 (Level 1),

      α

      = 2代表被試i掌握了屬性k的水平2 (Level 2)。相對(duì)應(yīng)的

      q

      代表了項(xiàng)目j測(cè)量屬性k的哪個(gè)水平,如

      q

      0代表項(xiàng)目j未測(cè)量屬性k,

      q

      = 1代表項(xiàng)目j測(cè)量了屬性k的水平1,

      q

      = 2代表項(xiàng)目j測(cè)量了屬性k的水平2,依此類推。當(dāng)然,如果被試要正確答對(duì)項(xiàng)目,則被試的知識(shí)狀態(tài)就需達(dá)到項(xiàng)目測(cè)量相應(yīng)屬性水平層次。例如:如果項(xiàng)目i測(cè)量的屬性

      q

      =(1,2),而若屬性A1和A2均有3種水平(Level 0、Level 1和Level 2),則被試至少需掌握屬性A1的水平1和屬性A2的水平2才可能答對(duì)該項(xiàng)目,即當(dāng)被試的掌握模式

      α

      = (1,2)或(2,2)時(shí)才可能答對(duì)該項(xiàng)目。屬性多級(jí)化的思想不僅可以進(jìn)一步細(xì)化項(xiàng)目測(cè)量的屬性水平層次,同時(shí)還可以進(jìn)一步細(xì)致考察被試具體掌握了屬性的哪個(gè)水平層次。與傳統(tǒng)0-1屬性相比,傳統(tǒng) 0-1屬性思想是將被試判為未掌握和掌握兩個(gè)水平(只能將被試區(qū)分為兩類),而多級(jí)化屬性思想則將被試判為未掌握和具體掌握了屬性何種水平(即能區(qū)分出更多類型的被試),因此提供的信息更為豐富和細(xì)致,對(duì)被試的診斷也更具價(jià)值和指導(dǎo)意義(de la Torre et al.,2010)。

      將屬性多級(jí)化的思想融入到認(rèn)知診斷計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)(CD-CAT)是一種全新的測(cè)量思想,它能充分發(fā)揮兩者的優(yōu)勢(shì)。與傳統(tǒng)0-1化的CD-CAT相比,它能高速、快效、準(zhǔn)確地(CD-CAT優(yōu)勢(shì))為被試提供更為細(xì)致和豐富的診斷信息(屬性多級(jí)化的思想),對(duì)被試的診斷也更具價(jià)值和指導(dǎo)意義。比較可惜的是,查閱相關(guān)文獻(xiàn),我們發(fā)現(xiàn)目前國(guó)內(nèi)外還未開(kāi)展有關(guān)于屬性多級(jí)化的CD-CAT研究。鑒于屬性多級(jí)化的優(yōu)勢(shì),本研究擬將屬性多級(jí)化思想融入傳統(tǒng)0-1化的CD-CAT中,開(kāi)發(fā)出適合屬性多級(jí)化的CD-CAT(簡(jiǎn)記為 pCD-CAT),重點(diǎn)探討 pCD-CAT的設(shè)計(jì)思路及其實(shí)現(xiàn),并同時(shí)與國(guó)際上流行的屬性0-1化的CD-CAT進(jìn)行比較,為進(jìn)一步拓展CD-CAT在實(shí)踐中的應(yīng)用提供新技術(shù)和新方法支持。

      2 屬性多級(jí)化認(rèn)知診斷計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)設(shè)計(jì)

      2.1 屬性多級(jí)化的認(rèn)知診斷模型

      要實(shí)現(xiàn)屬性多級(jí)化的CD-CAT (pCD-CAT),首先需開(kāi)發(fā)出相應(yīng)的認(rèn)知診斷模型(cognitive diagnosis model,CDM)。本研究對(duì)傳統(tǒng)屬性0-1化的R-RUM(reduced Reparameterized Unified Model; Hartz,2002)模型進(jìn)行改造,開(kāi)發(fā)出適合處理pCD-CAT的認(rèn)知診斷模型。式 2.1是傳統(tǒng)的屬性 0-1二值化R-RUM的項(xiàng)目反應(yīng)函數(shù):

      經(jīng)過(guò)公式2.2和2.3變換,則屬性0-1化的傳統(tǒng)的R-RUM模型可以多級(jí)化拓展為公式2.4,本文將屬性多級(jí)化的R-RUM模型簡(jiǎn)記為PA-R-RUM模型。

      表1 屬性多級(jí)化的二值轉(zhuǎn)換及其項(xiàng)目答對(duì)概率,qjk=(1,3),=(1,1)

      對(duì)于 PA-R-RUM 模型項(xiàng)目參數(shù)及被試參數(shù)的聯(lián)合估計(jì)算法我們已實(shí)現(xiàn),且參數(shù)估計(jì)精度比較理想,限于篇幅這里就不具體展開(kāi)相關(guān)參數(shù)聯(lián)合估計(jì)的公式與算法(感興趣的讀者可向作者索要)。考慮到在 pCD-CAT環(huán)境下,項(xiàng)目參數(shù)一般是已知的,需要估計(jì)的是被試參數(shù)(即在項(xiàng)目參數(shù)已知的條件估計(jì)被試參數(shù)),所以在文章2.2部分我們?cè)敿?xì)介紹了在pCD-CAT環(huán)境下,PA-R-RUM模型被試參數(shù)條件估計(jì)的3種算法及相關(guān)公式。

      2.2 屬性多級(jí)化的pCD-CAT參數(shù)估計(jì)算法

      CD-CAT環(huán)境下的參數(shù)估計(jì)多指項(xiàng)目參數(shù)已知的條件下估計(jì)被試的知識(shí)狀態(tài)(Knowledge States,KS),Huebner和 Wang (2011)以及 Feng,Habing和Huebner (2014)的研究中指出目前認(rèn)知診斷框架下被試知識(shí)狀態(tài)的條件估計(jì)方法主要有:極大似然估計(jì)法(Maximum Likelihood Estimation,MLE),極大后驗(yàn)估計(jì)法(Maximum a Posteriori,MAP)和期望后驗(yàn)估計(jì)法(Expected a Posteriori,EAP)。

      則PA-R-RUM模型的似然函數(shù)為,

      則被試

      i

      的知識(shí)狀態(tài)的極大似然(MLE)估計(jì)值為,

      即MLE是指使似然函數(shù)(見(jiàn)式2.6)具有最大值所對(duì)應(yīng)的知識(shí)狀態(tài)作為被試知識(shí)狀態(tài)的估計(jì)值。

      那么,被試

      i

      的知識(shí)狀態(tài)的極大后驗(yàn)(MAP)和期望后驗(yàn)(EAP)估計(jì)值分別為:

      即MAP指在給定作答向量X條件下具有最大后驗(yàn)概率的知識(shí)作為被試知識(shí)狀態(tài)的估計(jì)值; EAP是以被試知識(shí)狀態(tài)的后驗(yàn)期望值作為估計(jì)值。

      2.3 pCD-CAT選題策略

      CD-CAT通常是根據(jù)信息量來(lái)選擇最適合被試作答的項(xiàng)目,由于知識(shí)狀態(tài)的非連續(xù)性,當(dāng)前CD-CAT環(huán)境下主要是根據(jù)Kullback –Leibler信息量指標(biāo)進(jìn)行選題,常用的方法有KL信息量(Kullback–Leibler),PWKL信息量(Posterior-Weighted KL),HKL信息量(Hybrid KL)等(Cheng,2009; Hsu et al.,2013)??紤]到知識(shí)狀態(tài)-屬-多級(jí)化的pCD-CAT下,信息量的計(jì)算與傳統(tǒng)CD-CAT不盡相同,因此本研究將傳統(tǒng)CD-CAT下的KL、PWKL和HKL三個(gè)信息量分別記為PA-KL、PA-PWKL和PA-HKL,以示區(qū)別。

      Kullback–Leibler信息量的計(jì)算公式見(jiàn)2.11,

      則HKL信息量(Hybrid KL)可計(jì)算為,

      2.4 pCD-CAT終止規(guī)則

      與傳統(tǒng)CAT一樣,CD-CAT的終止規(guī)則主要有兩種,定長(zhǎng)(fixed length)和不定長(zhǎng)(variable length)。定長(zhǎng)是指固定CD-CAT的測(cè)驗(yàn)長(zhǎng)度(如20題),即如果某被試在 CD-CAT中達(dá)到了該長(zhǎng)度,則停止測(cè)試。定長(zhǎng)CD-CAT的特點(diǎn)是所有被試所用的題量均相等; 不定長(zhǎng)CAT是指固定測(cè)量精度,即如果某被試在CD-CAT中達(dá)到某一設(shè)定的測(cè)量精度,則停止測(cè)試。不定長(zhǎng)CD-CAT的特點(diǎn)是被試的測(cè)量精度基本一致,但被試所用的題量不盡相同。Hsu等(2013)以及 Tatsuoka (2002)在其研究中曾使用后驗(yàn)概率(posterior probability)作為測(cè)量精度指標(biāo),即當(dāng)被試判為某個(gè)知識(shí)狀態(tài)的后驗(yàn)概率達(dá)到事先要求水平(如0.8),則終止測(cè)試,本研究擬沿用這一做法。

      3 pCD-CAT的實(shí)現(xiàn)及與傳統(tǒng)CD-CAT的比較

      為了進(jìn)一步驗(yàn)證第二部分關(guān)于pCD-CAT設(shè)計(jì)的可行性,并同時(shí)為了探討其與傳統(tǒng) CD-CAT(即屬性0-1二值化的CD-CAT)的比較,本文開(kāi)展了3項(xiàng)Monte Carlo模擬實(shí)驗(yàn)研究:

      實(shí)驗(yàn)1

      :定長(zhǎng)CD-CAT條件下pCD-CAT效果

      實(shí)驗(yàn)2

      :不定長(zhǎng)CD-CAT條件下pCD-CAT效果

      實(shí)驗(yàn)3

      : pCD-CAT與傳統(tǒng)CD-CAT的比較

      3.1 題庫(kù)結(jié)構(gòu)及其Monte Carlo模擬

      題庫(kù)共測(cè)量5個(gè)獨(dú)立的認(rèn)知屬性,每個(gè)屬性的水平數(shù)分別是2,2,3,3和4,詳見(jiàn)表2。表2中既有 0-1 化的屬性(

      α

      α

      ),又有多級(jí)化的屬性(

      α

      ,

      α

      α

      ),且

      α

      ,

      α

      α

      的水平數(shù)不盡相同,是一種混合型且相對(duì)復(fù)雜的屬性結(jié)構(gòu)。

      表2 題庫(kù)測(cè)量的屬性及其水平數(shù)

      由表2可知,被試的知識(shí)狀態(tài)(KS)或?qū)傩哉莆漳J焦灿?2×2×3×3×4=144 種,項(xiàng)目測(cè)量模式則有144-1=143種(即除去全為0的模式)。為了保證題庫(kù)中各種類型的試題都有,本研究中共模擬生成350道試題(并保證每種類型的試題在題庫(kù)中至少有2道,143×2=286,其余350-286=64題則從所有可能的143種項(xiàng)目測(cè)量模式中隨機(jī)生成)。同時(shí),為了保證各種知識(shí)狀態(tài)(KS)或?qū)傩哉莆漳J奖辉嚨拇嬖?研究中模擬 1000名被試(并保證每種知識(shí)狀態(tài)或?qū)傩哉莆漳J降谋辉囍辽?人,144×6=864,其余1000-864=136人則從所有可能的144種知識(shí)狀態(tài)中隨機(jī)生成)。

      3.2 實(shí)驗(yàn)條件

      3.2.1 屬性多級(jí)化的認(rèn)知診斷模型

      采用 2.1部分中本研究開(kāi)發(fā)的 PA-R-RUM 模型。該模型既可以處理屬性 0-1化的測(cè)驗(yàn)情景,也可以處理屬性多級(jí)化的測(cè)驗(yàn)情景,還可以處理 0-1屬性和多級(jí)屬性混合的測(cè)驗(yàn)情景。

      3.2.2 參數(shù)估計(jì)方法

      3.2.3 選題策略

      將本研究 2.3部分設(shè)計(jì)的 PA-KL、PA-PWKL和PA-HKL三種選題策略運(yùn)用到pCD-CAT中,即選擇具有相應(yīng)最大信息量的試題,將隨機(jī)選題策略(記為 Random)作為參照基準(zhǔn),并比較這幾種選題策略的特點(diǎn)及優(yōu)劣; 同時(shí)探討傳統(tǒng)CD-CAT下的常用選題策略是否適應(yīng)于pCD-CAT環(huán)境。

      3.2.4 終止規(guī)則

      3.3 評(píng)價(jià)指標(biāo)

      3.3.1 屬性判準(zhǔn)率(Classification Accuracy)

      采用單個(gè)屬性判準(zhǔn)率(Attribute Match Ratio,AMR)和所有屬性平均邊際判準(zhǔn)率(Average Attribute Match Ratio,AAMR)和模式判準(zhǔn)率(Pattern Match Ration,PMR)三個(gè)評(píng)價(jià)指標(biāo)。

      N

      表示被試

      i

      的整個(gè)屬性掌握模式是否判對(duì),判對(duì)為1,判錯(cuò)為0; 表示被試

      i

      的屬性

      k

      是否判對(duì),判對(duì)為1,判錯(cuò)為0。

      3.3.2 題庫(kù)安全性(Test Security)

      采用題目曝光率(exposure rate,ER)和測(cè)驗(yàn)重疊率(test overlap ration,TOR)指標(biāo)來(lái)衡量題庫(kù)的安全性。

      測(cè)驗(yàn)重疊率(test overlap ration,TOR)是反應(yīng)不同被試共同調(diào)用試題的重疊情況,重疊率越高說(shuō)明題庫(kù)越不安全。因此測(cè)驗(yàn)重疊率的計(jì)算與項(xiàng)目曝光率、測(cè)驗(yàn)長(zhǎng)度和被試量有關(guān),Chen,Ankenmann和Spray (2003)在其研究中給出如下計(jì)算公式。

      3.3.3 測(cè)驗(yàn)效率(Test Efficiency)

      測(cè)驗(yàn)效率主要用來(lái)評(píng)價(jià)不定長(zhǎng)pCD-CAT的測(cè)試效率,即在相同測(cè)量精度下,平均使用的題數(shù)即為測(cè)驗(yàn)效率。如果平均使用的題數(shù)越少說(shuō)明pCD-CAT測(cè)試的效率越高,反之效率越低。

      L

      指不定長(zhǎng)CD-CAT中被試

      i

      使用的題數(shù)。

      表3 定長(zhǎng)pCD-CAT的判準(zhǔn)率

      4 實(shí)驗(yàn)1:定長(zhǎng)條件下pCD-CAT效果

      實(shí)驗(yàn)1采用3×4兩因素實(shí)驗(yàn)設(shè)計(jì),第一因素為測(cè)驗(yàn)長(zhǎng)度,分15、20和25題三個(gè)水平; 第二個(gè)因素為選題策略,分隨機(jī)選題策略、PA-KL、PA-PWKL和PA-HKL四種選題策略。

      表3和表4分別是定長(zhǎng)pCD-CAT下的被試屬性判準(zhǔn)率及題庫(kù)安全性的結(jié)果。

      表4 定長(zhǎng)pCD-CAT的題庫(kù)安全性

      總之,實(shí)驗(yàn) 1結(jié)果表明,總體來(lái)講本研究設(shè)計(jì)下的定長(zhǎng) pCD-CAT具有較高的屬性判準(zhǔn)率,且題庫(kù)的安全性尚可。幾種選題策略相比較而言,PA-PWKL和 PA-HKL選題策略整體上最佳,而PA-KL選題策略由于較低屬性模式判準(zhǔn)率及相對(duì)較高的測(cè)驗(yàn)重疊率和曝光率,因此 PA-KL選題策略不太適用于不定長(zhǎng)pCD-CAT。

      5 實(shí)驗(yàn)2:不定長(zhǎng)條件下pCD-CAT效果

      考慮到隨機(jī)選題策略(Random)在不定長(zhǎng) pCDCAT下,為了達(dá)到后驗(yàn)概率大于0.8的測(cè)量精度需要非常多的試題(如超過(guò) 100多題),因此已基本失去了CAT的價(jià)值,因此實(shí)驗(yàn)2中未考慮Random選題策略。

      實(shí)驗(yàn)2采用3×3兩因素實(shí)驗(yàn)設(shè)計(jì),第一因素為測(cè)量精度指標(biāo)——后驗(yàn)概率

      p

      ,分0.75、0.80和0.85三個(gè)水平; 第二個(gè)因素為選題策略,為 PA-KL、PA-PWKL和PA-HKL三種選題策略。同時(shí)實(shí)驗(yàn)2控制了每個(gè)被試的最大使用題量為 60題,即如果被試做完 60題后仍未達(dá)到預(yù)先設(shè)定的測(cè)量精度則停止測(cè)試。

      表5和表6分別是不定長(zhǎng)pCD-CAT下的被試知識(shí)狀態(tài)(KS)判準(zhǔn)率及題庫(kù)的安全性與測(cè)驗(yàn)效率的結(jié)果。

      表5 不定長(zhǎng)pCD-CAT的判準(zhǔn)率

      表6 不定長(zhǎng)pCD-CAT的題庫(kù)安全性與測(cè)驗(yàn)效率

      總之,實(shí)驗(yàn) 2結(jié)果表明,總體來(lái)講本研究設(shè)計(jì)的不定長(zhǎng) pCD-CAT同樣具有較高的屬性判準(zhǔn)率,且題庫(kù)的安全性較理想。幾種選題策略相比較而言,PA-PWKL和PA-HKL選題策略整體上最佳,但KL選題策略因診斷正確率、題庫(kù)安全性及測(cè)驗(yàn)效率低等原因仍不適用于pCD-CAT。

      6 實(shí)驗(yàn)3:屬性多級(jí)化CD-CAT與傳統(tǒng)CD-CAT的比較

      為了保證結(jié)果的可比性及簡(jiǎn)化實(shí)驗(yàn),實(shí)驗(yàn)3完全采用實(shí)驗(yàn)1的數(shù)據(jù),結(jié)果見(jiàn)表7。

      表7可知,不論是在哪種選題策略下,采用傳統(tǒng)的CD-CAT處理pCD-CAT的知識(shí)狀態(tài)判準(zhǔn)率都非常低; 且與實(shí)驗(yàn)1相比,邊際判準(zhǔn)率AAMR平均下降了 18.2%,而模式判準(zhǔn)率則平均下降高達(dá) 44.2%;尤其是當(dāng)采用HKL和PWKL選題策略時(shí),PMR分別下降了67.2%和67.6%。總之,實(shí)驗(yàn)3結(jié)果表明,在認(rèn)知診斷計(jì)算機(jī)化自適應(yīng)測(cè)試中,當(dāng)屬性多級(jí)化時(shí)不宜采用傳統(tǒng)CD-CAT診斷方法,而本文設(shè)計(jì)的pCD-CAT是一種不錯(cuò)的選擇。

      表7 屬性多級(jí)化情景下傳統(tǒng)CD-CAT的判準(zhǔn)率

      考慮到不定長(zhǎng)pCD-CAT下,使用傳統(tǒng)CD-CAT方法處理pCD-CAT情景下屬性診斷正確率較低(見(jiàn)表8)。若使用傳統(tǒng)屬性0-1的CD-CAT來(lái)處理屬性多級(jí)化 CD-CDAT,且要使測(cè)量精度或后驗(yàn)概率大于 0.75,則需要非常多的試題(平均超過(guò) 100題),因此已基本失去了CAT的價(jià)值,因此實(shí)驗(yàn)3中未報(bào)告不定長(zhǎng)下條件的結(jié)果。

      表8 傳統(tǒng)屬性多級(jí)化0-1二值化CD-CAT的題庫(kù)安全性

      7 研究結(jié)論與討論

      7.1 研究結(jié)論

      本研究在傳統(tǒng)CD-CAT的基礎(chǔ)上進(jìn)行拓展,開(kāi)發(fā)設(shè)計(jì)了可以處理屬性多級(jí)化的 CD-CAT (記為pCD-CAT),Monte Carlo模擬實(shí)驗(yàn)結(jié)果表明:基于屬性多級(jí)化框架下設(shè)計(jì)的pCD-CAT具有較好的診斷正確率、題庫(kù)安全性和較高的測(cè)驗(yàn)效率,說(shuō)明本研究設(shè)計(jì)開(kāi)發(fā)的 pCD-CAT基本可行,可以用于實(shí)現(xiàn)屬性多級(jí)化的計(jì)算化自適應(yīng)診斷,彌補(bǔ)了傳統(tǒng)CD-CAT不足; 當(dāng)屬性多級(jí)化為多級(jí)化時(shí),若采用傳統(tǒng) CD-CAT方法,則診斷正確率非常不理想(屬性模式判準(zhǔn)不到 30%),表明傳統(tǒng) CD-CAT在屬性多級(jí)化為多級(jí)化測(cè)驗(yàn)情景時(shí)不適宜,而本文設(shè)計(jì)的pCD-CAT是一種不錯(cuò)的選擇(屬性模式判準(zhǔn)高達(dá)80%及以上); 模擬實(shí)驗(yàn)還同時(shí)表明,KL選題策略不適合 pCD-CAT環(huán)境; 整體來(lái)看 PWKL和 HKL選題策略具有較理想的判準(zhǔn)率、題庫(kù)安全性和高測(cè)驗(yàn)效率。同時(shí),本研究中所有算法采用 Matlab 7.0語(yǔ)言編程實(shí)現(xiàn),在普通筆記本電腦(i5-2450M,CPU 2.5GHz,RAM 2.00G)運(yùn)行環(huán)境下,平均每個(gè)被試完成20題的pCD-CAT用時(shí)不到1秒,這符合 CAT的速度要求,當(dāng)然隨著計(jì)算機(jī)電腦性能的提高以及使用更為優(yōu)化的語(yǔ)言編程(如 FORTRAN語(yǔ)言等),其運(yùn)算速度還有望進(jìn)一步提高??傊?本研究對(duì)于進(jìn)一步拓展 CD-CAT在實(shí)踐中的應(yīng)用提供了方法和技術(shù)支持。

      7.2 討論與研究展望

      pCD-CAT是一項(xiàng)全新的研究領(lǐng)域,為了推動(dòng)pCD-CAT更好地服務(wù)實(shí)踐,未來(lái)至少在以下領(lǐng)域可進(jìn)一步深入:

      (1) 關(guān)于pCD-CAT新選題策略算法研究

      作為一項(xiàng)初始研究,本研究成功地將傳統(tǒng)CD-CAT的PWKL和HKL選題策略的思想方法應(yīng)用于 pCD-CAT環(huán)境中; 未來(lái)研究可以進(jìn)一步考慮香農(nóng)熵(Xu,Chang,& Douglas,2003)和互信息量(Mutual information,Wang,2013)等選題策略在pCD-CAT中的效果。

      (2) 關(guān)于pCD-CAT題庫(kù)安全性控制技術(shù)研究

      測(cè)量精度與題庫(kù)安全性向來(lái)是 CD-CAT環(huán)境下的一對(duì)矛盾體。如果想保證CD-CAT有較高的診斷正確率,則必然會(huì)導(dǎo)致過(guò)多地使用題庫(kù)中優(yōu)秀的試題,從而使題目曝光率偏高; 同樣,如果想要使題庫(kù)中的題目被均勻的使用,則必然會(huì)損失一定的測(cè)驗(yàn)精度。本研究設(shè)計(jì)的 pCD-CAT也不例外,未來(lái)研究應(yīng)該盡量在兩者間尋求平衡。令人幸喜的是目前國(guó)內(nèi)外已有學(xué)者已關(guān)注 CD-CAT中兼顧診斷準(zhǔn)確率和題庫(kù)安全性的研究(Wang et al.,2011; Hsu et al.,2013; 汪文義等,2014),當(dāng)然這些研究方法及結(jié)果是否適用于pCD-CAT環(huán)境還有待進(jìn)一步探討。

      (3) 關(guān)于pCD-CAT下多級(jí)屬性的標(biāo)定

      屬性多級(jí)化的 pCD-CAT理論上可以比傳統(tǒng)CD-CAT提供更為豐富、更具價(jià)值的診斷信息,能將被試區(qū)分出更多種類型被試(詳見(jiàn)引言部分),這對(duì)于拓展認(rèn)知診斷在實(shí)現(xiàn)中的應(yīng)用提供了重要的方法學(xué)支持。當(dāng)然,在實(shí)踐中,對(duì)多級(jí)化屬性的標(biāo)定(即測(cè)驗(yàn)Q矩陣的標(biāo)定)將比傳統(tǒng)0-1屬性面臨更大的挑戰(zhàn)。當(dāng)前 0-1屬性框架下,屬性主要是由專家來(lái)標(biāo)定,有研究(Decarlo,2011)表明測(cè)驗(yàn) Q矩陣的標(biāo)定是一項(xiàng)十分復(fù)雜的任務(wù),專家們針對(duì)同一份測(cè)驗(yàn)往往會(huì)有多個(gè)不同的測(cè)驗(yàn)Q矩陣。那么,對(duì)于多級(jí)化屬性的標(biāo)定顯然比傳統(tǒng)的0-1屬性標(biāo)定更為復(fù)雜。因此,pCD-CAT在實(shí)踐中的應(yīng)用還需進(jìn)一步解決其屬性標(biāo)定技術(shù)等問(wèn)題。

      Chen,J.S.,& de la Torre,J.(2013).A general cognitive diagnosis model for expert-defined polytomous attributes.

      Applied Psychological Measurement, 37

      (6),419–437.Chen,P.,& Xin,T.(2011).Item replenishing in cognitive diagnostic computerized adaptive testing.

      Acta Psychologica Sinica,43

      (7),836–850.

      [陳平,辛濤.(2011).認(rèn)知診斷計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)中的項(xiàng)目增補(bǔ).心理學(xué)報(bào),43(7),836–850.]

      Chen,S.Y.,Ankenmann,R.D.,& Spray,J.A.(2003).The relationship between item exposure and test overlap in computerized adaptive testing.

      Journal of Educational Measurement,40

      ,129-145.Chen,Y.X.,Liu J.C.,& Ying,Z.L.(2014).Online item calibration for Q-Matrix in CD-CAT.

      Applied Psychological Measurement,38

      (1),5–15.Cheng,Y.(2009).When cognitive diagnosis meets computerized adaptive testing:CD-CAT.

      Psychometrika, 74

      ,619– 632.de la Torre,J.,Lam,D.,Rhoads,K.,& Tjoe,H.(2010,May).

      Measuring grade 8 proportional reasoning:The process of attribute identification and task development and validatio

      n.Paper presented at the annual meeting of the American Educational Research Association,Denver,CO.DeCarlo,L.T.(2011).On the analysis of fraction subtraction data:The DINA model,classification,latent class sizes,and the Q-matrix.

      Applied Psychological Measurement,35

      (1),8–26.Feng,Y.L.,Habing,B.T.,Huebner,A.(2014).Parameter estimation of the reduced RUM using the EM algorithm.

      Applied Psychological Measurement, 38

      (2),137–150.Hartz,S.(2002).

      A bayesian framework for the unified model for assessing cognitive abilities:Blending theory with practicality

      (Unpublished doctoral dissertation).University of Illinois at Urbana-Champaign.Hsu,C.L.,Wang,W.C.,& Chen,S.Y.(2013).Variable-length computerized adaptive testing based on cognitive diagnosis models.

      Applied Psychological Measurement, 37

      (7),563–582.Huebner,A.,& Wang,C.(2011).A note on comparing examinee classification methods for cognitive diagnosis models.

      Educational and Psychological Measurement,71

      (2),407–419.Karelitz,T.M.(2004).

      Ordered category attribute coding framework for cognitive assessments

      (Unpublished doctoral dissertation).University of Illinois at Urbana-Champaign.Mao,X.Z.,& Xin,T.(2013).The application of the Monte Carlo approach to cognitive diagnostic computerized adaptive testing with content constraints.

      Applied Psychological Measurement, 37

      (6),482–496.Tatsuoka,C.(2002).Data analytic methods for latent partially ordered classification models.

      Journal of the Royal Statistical Society:Series C (Applied Statistics),51

      ,337–350.Tu,D.B.,Cai,Y.,& Dai,H.Q.(2013).Item selection strategies and initial items selection methods of CD-CAT.

      Journal of Psychological Science,36

      (2),469–474.

      [涂冬波,蔡艷,戴海琦.(2013).認(rèn)知診斷CAT 選題策略及初始題選取方法.心理科學(xué),36(2),469–474.]

      Wang,C.(2013).Mutual information item selection method in cognitive diagnostic computerized adaptive testing with short test length.

      Educational and Psychological Measurement,73

      (6),1017–1035.Wang,C.,Chang,H.H.,& Huebner,A.(2011).Restrictive stochastic item selection methods in cognitive diagnostic computerized adaptive testing.

      Journal of Educational Measurement,48

      ,255–273.Wang,W.Y.,Ding,S.L.,& Song,L.H.(2014).Item selection methods for balancing test efficiency with item bank usage efficiency in CD-CAT.

      Journal of Psychological Science,37

      (1),212–216.

      [汪文義,丁樹(shù)良,宋麗紅.(2014).兼顧測(cè)驗(yàn)效率和題庫(kù)使用率的CD-CAT選題策略.心理科學(xué),37(1),212–216.]

      Xu,X.L.,Chang,H.H.,& Douglas,J.(2003,April).

      A simulation study to compare CAT strategies for cognitive diagnosis

      .Paper presented at the Annual Meeting of National Council on Measurement in Education,Montreal,Canada.

      猜你喜歡
      題庫(kù)測(cè)驗(yàn)選題
      “勾股定理”優(yōu)題庫(kù)
      “軸對(duì)稱”優(yōu)題庫(kù)
      本刊誠(chéng)征“獨(dú)唱團(tuán)”選題
      “軸對(duì)稱”優(yōu)題庫(kù)
      “整式的乘法與因式分解”優(yōu)題庫(kù)
      談詩(shī)詞的選題
      本刊誠(chéng)征“獨(dú)唱團(tuán)”選題
      本刊誠(chéng)征“獨(dú)唱團(tuán)”選題
      《新年大測(cè)驗(yàn)》大揭榜
      兩個(gè)處理t測(cè)驗(yàn)與F測(cè)驗(yàn)的數(shù)學(xué)關(guān)系
      考試周刊(2016年88期)2016-11-24 13:30:50
      霞浦县| 罗定市| 巴林左旗| 中江县| 东至县| 张掖市| 合作市| 伊川县| 苏尼特左旗| 镇安县| 陇西县| 长兴县| 米易县| 巴林右旗| 吉安县| 台北市| 延津县| 翁牛特旗| 来安县| 罗江县| 仙游县| 察隅县| 澜沧| 孝感市| 大新县| 武隆县| 勃利县| 五原县| 余江县| 双峰县| 鹤峰县| 宜阳县| 乡城县| 兴义市| 保山市| 徐汇区| 日喀则市| 潜江市| 桑植县| 宁安市| 台北县|