• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      單維參數(shù)型與非參數(shù)型項(xiàng)目反應(yīng)理論項(xiàng)目參數(shù)的比較研究*

      2015-12-27 06:25:14
      心理學(xué)探新 2015年3期
      關(guān)鍵詞:區(qū)分度試卷量表

      張 軍

      (北京語言大學(xué)漢語進(jìn)修學(xué)院,北京100083)

      1 問題的提出

      單維項(xiàng)目反應(yīng)理論模型分參數(shù)型(Parametric Item Response Theory,PIRT)與非參數(shù)型(Nonparametric Item Response Theory,NIRT)兩種。PIRT 模型適合于等距量表或比率量表水平的測量;而NIRT的測量限于順序量表水平。(Meijer,Sijtsma,&Smid,1990;Sijtsma & Verweij,1992)前者使用難度、區(qū)分度、猜測度等若干項(xiàng)目參數(shù)刻畫項(xiàng)目特征曲線,描寫項(xiàng)目的測量特性;而后者不要求反應(yīng)數(shù)據(jù)符合某種特定函數(shù)形態(tài),比前者限制要少,只使用量表適宜性系數(shù)H(scalability coefficients)衡量項(xiàng)目測量被試的適宜性。

      關(guān)于PIRT 與NIRT 兩種模型下項(xiàng)目參數(shù)之間的關(guān)系,有的研究者做了有益的分析。Roskam 等(1986)、Jansen(1982)和Mokken 等(1986)認(rèn)為H 系數(shù)是一個(gè)能反映項(xiàng)目綜合性能的統(tǒng)計(jì)量,它與潛在能力的方差、難度的全距(the spread of item difficulties)和區(qū)分度三個(gè)因素有關(guān),當(dāng)其中兩個(gè)因素保持不變,H系數(shù)就是另一個(gè)因素的遞增函數(shù),但是一個(gè)特定的H值并不能提供有關(guān)三個(gè)因素的具體信息。

      Sijtsma,Emons,Bouwmeester 和Ivan(2008)認(rèn)為Hi 系數(shù)的取值取決于項(xiàng)目區(qū)分度、難度與潛在變量分布的交互作用。他們模擬了分布情況分別為(均值= -2,標(biāo)準(zhǔn)差=1)和(均值=1,標(biāo)準(zhǔn)差=1)兩種能力群體對(duì)5 個(gè)多級(jí)項(xiàng)目的反應(yīng)數(shù)據(jù),樣本容量都是5000 人,這5 個(gè)項(xiàng)目的三個(gè)等級(jí)的難度各不相同,區(qū)分度都是1.4。經(jīng)計(jì)算,雖然項(xiàng)目的區(qū)分度相同,但Hi 系數(shù)卻因?yàn)槟芰Ψ植寂c難度的不同而大小不同。張軍(2010)使用自動(dòng)選題策略分析試卷維度時(shí),發(fā)現(xiàn)項(xiàng)目的區(qū)分度對(duì)通過H 系數(shù)進(jìn)行的量表構(gòu)建過程有較大影響。除以上三個(gè)因素以外,是否還存在其他因素與H 系數(shù)有關(guān),如潛在能力分布的均值、難度分布的均值等,以及潛在能力、難度、區(qū)分度三個(gè)因素如何綜合影響H 系數(shù),這些問題尚未有研究涉及。

      2 PIRT 模型的項(xiàng)目參數(shù)

      單維性和局部獨(dú)立性是單維參數(shù)型項(xiàng)目反應(yīng)理論兩大基本假設(shè),除此以外,PIRT 還要求潛在能力與被試項(xiàng)目反應(yīng)之間的關(guān)系符合某種特定的函數(shù)形態(tài)。根據(jù)函數(shù)的不同,主要有兩種單維PIRT 模型:正態(tài)拱形模型(Lord,1952)和邏輯斯蒂克模型(Birnbaum,1957)。這兩種模型的項(xiàng)目特征曲線的形態(tài)都呈S 型,根據(jù)所含項(xiàng)目參數(shù)的多寡又分為單參數(shù)模型(難度)、雙單數(shù)模型(難度、區(qū)分度)和三參數(shù)模型(難度、區(qū)分度、猜測度)。

      若給邏輯斯蒂克模型添加個(gè)調(diào)節(jié)系數(shù)1.7,那么兩種模型差別極小,但邏輯斯蒂克模型計(jì)算起來相對(duì)方便,遂使用更為廣泛。難度參數(shù)與潛在能力參數(shù)在同一量綱中(Hambleton & Swaminathan,1984),一般處于-3 到3 之間,取值越大,說明項(xiàng)目越不容易答對(duì);區(qū)分度處于0 到2 之間,取值越大,項(xiàng)目特征曲線越陡峭,項(xiàng)目對(duì)被試的區(qū)分能力越強(qiáng);猜測度愈高,被試愈容易通過猜測回答正確。

      單參數(shù)模型不含區(qū)分度,相當(dāng)于區(qū)分度等于1的雙參數(shù)模型,是雙參數(shù)模型的特殊形態(tài),其對(duì)數(shù)據(jù)的要求更嚴(yán)格,所以雙參數(shù)或三參數(shù)模型在擬合數(shù)據(jù)上更加靈活。在大樣本數(shù)據(jù)情況下,難度和區(qū)分度兩參數(shù)都能得到良好的估計(jì),猜測度卻相對(duì)不太穩(wěn)定,因此在實(shí)踐中,雙參數(shù)模型優(yōu)勢最明顯。雙參數(shù)邏輯斯蒂克模型的形式如下:

      注:ai為項(xiàng)目i 區(qū)分度;bi為項(xiàng)目i 區(qū)分度

      D 為調(diào)節(jié)系數(shù),取值1.7;θ 為被試潛在能力參數(shù)

      3 NIRT 模型的項(xiàng)目參數(shù)

      Mokken(1971)提出了NIRT 中的單調(diào)勻質(zhì)模型(The Monotone Homogeneity Model,MHM)和雙單調(diào)模型(The Double Monotonicity Model,DMM)。MHM 模型有三個(gè)基本假設(shè):單維性、局部獨(dú)立性、單調(diào)性。前兩個(gè)假設(shè)與PIRT 相同,但是NIRT 不要求被試潛在能力與項(xiàng)目反應(yīng)之間的關(guān)系符合某種特定函數(shù)形態(tài),只要求項(xiàng)目反應(yīng)曲線非單調(diào)遞減,即若存在兩個(gè)潛在能力值θa和θb,且θa≤θb,那么P(xj= 1| θ = θa〉)≤P(xj= 1| θ = θb〉。DMM 除以上三個(gè)假設(shè)外,另要求所有項(xiàng)目特征曲線不交叉,即非交叉性,類似于PIRT 中的單參數(shù)模型。從假設(shè)要求來看,NIRT 模型比PIRT 模型更自由,其對(duì)被試潛在能力與項(xiàng)目反應(yīng)之間關(guān)系的理解更寬泛,所以若某數(shù)據(jù)擬合PIRT 模型,那它必然亦擬合NIRT 模型。

      為衡量數(shù)據(jù)是否擬合NIRT 模型,Mokken 采用了Loveinger(1947)提出的量表適宜性系數(shù)(scalability coefficients)。系數(shù)分為:項(xiàng)目i 與項(xiàng)目j 間的量表適宜系數(shù)Hij;項(xiàng)目i 與剩余項(xiàng)目全體的量表適宜系數(shù)Hi;全體項(xiàng)目的量表適宜系數(shù)H。計(jì)算公式如下:

      注:R(i)指除i 以外其他題的總分。

      若數(shù)據(jù)擬合NIRT 模型,那么三種量表適宜性系數(shù)就都處于0 和1 之間。Mokken(1971)認(rèn)為僅當(dāng)H >c 時(shí),那個(gè)量表才有用。c 是低限,可根據(jù)需要設(shè)定,至少為0.3。當(dāng)0.3 ≤H <0.4 時(shí),被認(rèn)為是較弱程度的量表;當(dāng)0.4 ≤H <0.5 時(shí),程度中等;當(dāng)0.5≤H 時(shí),程度強(qiáng)。換言之,如果H 處于0 到0.3 之間,我們就不能相信項(xiàng)目組有足夠共同的東西能將被試在一有意義的潛在特質(zhì)上排序(張軍,2010)。

      4 實(shí)驗(yàn)研究

      為研究被試能力、項(xiàng)目難度和區(qū)分度三個(gè)因素與量表適宜性系數(shù)的關(guān)系,設(shè)計(jì)本實(shí)驗(yàn)。

      4.1 實(shí)驗(yàn)?zāi)康?/h3>

      實(shí)驗(yàn)希望解決四個(gè)問題:(1)區(qū)分度分布不同,難度分布相同的項(xiàng)目測量能力高低不同的群體時(shí),項(xiàng)目的Hi 系數(shù)是否不同,即區(qū)分度分布與Hi 系數(shù)的關(guān)系。(2)難度分布不同,區(qū)分度分布相同的項(xiàng)目測量能力高低不同的群體時(shí),項(xiàng)目的Hi 系數(shù)是否不同,即難度分布與Hi 系數(shù)的關(guān)系。(3)項(xiàng)目區(qū)分度分布、難度分布、被試群體潛在能力分布三個(gè)因素對(duì)試卷H 系數(shù)的綜合影響。

      4.2 實(shí)驗(yàn)設(shè)計(jì)

      由于真實(shí)的測驗(yàn)數(shù)據(jù)難以嚴(yán)格滿足實(shí)驗(yàn)控制要求,實(shí)驗(yàn)使用軟件WinGen3(Han & Hambleton,2007),采用蒙特卡羅方法模擬若干套擬合雙參數(shù)邏輯斯蒂克模型的數(shù)據(jù),然后再計(jì)算這些項(xiàng)目的Hi與H 系數(shù),進(jìn)而比較分析NIRT 與PIRT 兩種模型項(xiàng)目參數(shù)的異同。為保證被試與項(xiàng)目樣本的充分性,模擬的數(shù)據(jù)為10000 個(gè)被試對(duì)100 個(gè)項(xiàng)目的反應(yīng)。

      潛在能力一般服從正態(tài)分布,實(shí)驗(yàn)?zāi)M了三個(gè)能力高低不同的被試群體:低能力分布Θ1(均值= -2,標(biāo)準(zhǔn)差= 1)、中等能力分布Θ2(均值= 0,標(biāo)準(zhǔn)差= 1)與高能力分布Θ3(均值= 2,標(biāo)準(zhǔn)差=1)。在項(xiàng)目反應(yīng)理論中,難度參數(shù)與能力參數(shù)處于同一量綱中,所以實(shí)驗(yàn)?zāi)M了三個(gè)與不同能力分布相對(duì)應(yīng)的難度參數(shù)分布,分別為:Β1(- 2,1)、Β2(0,1)、Β3(2,1)。區(qū)分度處于0 到2 之間,服從均勻分布。按取值大小,分四種類型:低區(qū)分度分布A1(0.1,0.5)、較低區(qū)分度分布A2(0.6,1.0)、較高區(qū)分度分布A3(1.1,1.5)和高區(qū)分度分布A4(1.6,2.0)。

      被試能力分布、項(xiàng)目難度分布、項(xiàng)目區(qū)分度分布為三個(gè)自變量,量表適宜性系數(shù)為因變量。被試能力與項(xiàng)目難度分布分別有3 個(gè)水平,區(qū)分度分布有4個(gè)水平,實(shí)驗(yàn)為3 ×3 ×4 交叉設(shè)計(jì),共36 套模擬數(shù)據(jù),具體見表1。

      表1 實(shí)驗(yàn)設(shè)計(jì)表

      4.3 分析與結(jié)果

      實(shí)驗(yàn)使用統(tǒng)計(jì)軟件R 中2.7.5 版本的mokken軟件包(Van der Ark,2010)計(jì)算36 套模擬數(shù)據(jù)中100 個(gè)項(xiàng)目的Hi 系數(shù)與每套試卷的H 系數(shù),使用SPSS13.0 計(jì)算每套試卷中所有項(xiàng)目區(qū)分度與Hi 系數(shù)、難度與Hi 系數(shù)之間的皮爾遜相關(guān)系數(shù)。

      4.3.1 區(qū)分度分布與項(xiàng)目Hi 系數(shù)的關(guān)系

      相關(guān)系數(shù)的高低代表了兩列變量的共變性,正相關(guān)表示其存在一致性變化,反之,負(fù)相關(guān)表示其存在相反的變化趨勢。表2a、b、c 列出當(dāng)難度分別固定為B1(- 2,1)、B2(0,1)、B3(2,1),不同區(qū)分度分布的項(xiàng)目測量不同能力分布的被試群體時(shí),項(xiàng)目區(qū)分度與Hi 系數(shù)之間的皮爾遜相關(guān)系數(shù)。如表2a 中第一行的0.971、0.965 和0.944 分別表示當(dāng)難度分布為B1(-2,1),區(qū)分度分布為A1(0.1,0.5)的100 個(gè)項(xiàng)目在用于測量三個(gè)不同能力分布時(shí),項(xiàng)目區(qū)分度與Hi 系數(shù)的相關(guān)系數(shù)。同樣,表中每列表示不同區(qū)分度分布的項(xiàng)目用于測量同一能力分布被試時(shí),項(xiàng)目區(qū)分度與Hi 系數(shù)之間的相關(guān)系數(shù)。**表示在0.01 水平上顯著,*表示在0.05 水平上顯著。

      表2a 難度固定為B1(-2,1)

      表2b 難度固定為B2(0,1)

      表2c 難度固定為B3(2,1)

      表2 里36 個(gè)相關(guān)系數(shù)中有29 個(gè)在0.01 或0.05水平上顯著,這說明無論被試能力是什么分布,當(dāng)難度固定時(shí),區(qū)分度與Hi 系數(shù)存在正相關(guān),但區(qū)分度越大,它與Hi 系數(shù)相關(guān)的程度愈趨于弱化。如表2a第一列,從上到下,隨著項(xiàng)目區(qū)分度的增加,相關(guān)系數(shù)從0.971 降到0.307。只有當(dāng)B2(0,1)和Θ1(-2,1)時(shí),A3(1.1,1.5)與A4(1.6,2.0)兩個(gè)分布的區(qū)分度與Hi 系數(shù)呈相反情況。當(dāng)B1(-2,1)和Θ3(2,1)時(shí),A3(1.1,1.5)和A3(1.1,1.5)兩個(gè)分布的區(qū)分度與Hi 系數(shù)也呈相反情況,但由于在統(tǒng)計(jì)上都不顯著,所以不予考慮。因此,換言之,Hi 系數(shù)與項(xiàng)目區(qū)分度有一定相關(guān)性,但項(xiàng)目Hi 系數(shù)的計(jì)算能防止區(qū)分度大的項(xiàng)目對(duì)其取值造成過度影響。

      另外,測驗(yàn)用于測量與難度分布相匹配的能力分布群體時(shí),其區(qū)分度與Hi 系數(shù)的相關(guān)總是高于難度分布于能力分布不匹配時(shí)的相關(guān)。如表2a 的每行中,總是第一列的相關(guān)最高;表2b 的每行中,總是第二列的相關(guān)最高;表2c 的每行中,第三列的相關(guān)最高。所以,當(dāng)難度分布于被試群體能力分布匹配時(shí),項(xiàng)目區(qū)分度與Hi 系數(shù)一致性會(huì)得到加強(qiáng)。

      4.3.2 難度分布對(duì)項(xiàng)目Hi 系數(shù)的關(guān)系

      表3a、b、c、d 列出當(dāng)區(qū)分度分別固定為A1(0.1,0.5)、A2(0.6,1.0)、A3(1.1,1.5)和A4(1.6,2.0),不同難度分布的項(xiàng)目測量不同能力分布的被試群體時(shí),項(xiàng)目難度與Hi 系數(shù)之間的皮爾遜相關(guān)系數(shù)。表3a 表明,當(dāng)固定為低區(qū)分度分布A1(0.1,0.5)時(shí),不同難度分布的項(xiàng)目區(qū)分度與Hi 系數(shù)均無相關(guān)。側(cè),即于被試而言,項(xiàng)目較容易時(shí),難度與Hi 系數(shù)呈正相關(guān)。換言之,項(xiàng)目越難,其Hi 系數(shù)越大。如表3b中,當(dāng)難度為B1(-2,1),能力分布分別為Θ2(0,1)和Θ3(2,1)時(shí),相關(guān)系數(shù)為0.586 和0.786。

      表3a 區(qū)分度固定為A1(0.1,0.5)

      表3b 區(qū)分度固定為A2(0.6,1.0)

      表3c 區(qū)分度固定為A3(1.1,1.5)

      表3d 區(qū)分度固定為A4(1.6,2.0)

      (2)當(dāng)項(xiàng)目難度分布處于被試能力分布的右側(cè),即于被試而言,項(xiàng)目較難時(shí),難度與Hi 系數(shù)呈負(fù)相關(guān),即項(xiàng)目越容易,其Hi 系數(shù)越大。如表3c 中,當(dāng)難度為B3(2,1),能力分布分別為Θ1(- 2,1)和Θ2(0,1)時(shí),相關(guān)系數(shù)為-0.821 和-0.779。

      (3)當(dāng)項(xiàng)目難度分布和被試能力分布匹配,即于被試而言,項(xiàng)目難度適當(dāng)時(shí),難度與Hi 系數(shù)無相關(guān)或呈非常弱的相關(guān)性。如表3c 中,當(dāng)B1(- 2,1)和Θ1(-2,1)時(shí),相關(guān)僅為0.009,且不顯著。只有表3d 中,當(dāng)B1(- 2,1)和Θ1(- 2,1)、B3(2,1)和Θ3(2,1)兩種情況時(shí),情況特殊,系數(shù)分別為0.417和0.656,且均在0.01 水平上顯著,這可能與高區(qū)分度這一因素有關(guān)。

      4.3.3 三個(gè)因素對(duì)試卷H 系數(shù)的綜合影響

      H 系數(shù)的大小反映了整個(gè)試卷測量某被試群體的綜合性能。36 套試卷代表了36 種情境,實(shí)驗(yàn)計(jì)算了這不同情境下H 系數(shù)的取值,取值大小的變化揭示三個(gè)因素對(duì)試卷H 系數(shù)的綜合影響,具體見表4。

      表4 不同情境下H 系數(shù)的取值

      經(jīng)分析,表4 中H 系數(shù)的變化表現(xiàn)出三種規(guī)律:

      (1)當(dāng)能力與難度分布不變時(shí),區(qū)分度越大,H值越大。如當(dāng)B1(-2,1)和Θ1(-2,1)時(shí),隨著區(qū)分度分布從A1到A4,H 系數(shù)從0.025 增加到0.474。

      (2)當(dāng)區(qū)分度分布不變時(shí),測驗(yàn)難度分布與被試能力分布匹配時(shí),H 值最大。如第一、二、三、四列中,B1(-2,1)與Θ1(-2,1)分布匹配,所以這四列中第一行的H 系數(shù)在每列中都是最大的。同理,第五、六、七、八列中,第二行的H 系數(shù)在每列中最大;第九、十、十一、十二列中,第三行的H 系數(shù)在每列中最大。

      (3)當(dāng)能力與難度分布匹配時(shí),區(qū)分度達(dá)到1.1以上時(shí),測驗(yàn)才能達(dá)到0.3 的低限,如B1(-2,1)與Θ1(-2,1)分布匹配,當(dāng)區(qū)分度分布為A3(1.1,1.5)和A4(1.6,2.0)時(shí),H 系數(shù)取值為0.327 和0.474;當(dāng)能力分布與難度分布接近匹配時(shí),區(qū)分度達(dá)到1.6 以上時(shí),測驗(yàn)才能達(dá)到0.3 的低限,如B1(-2,1)與Θ2(0,1)分布臨近,當(dāng)區(qū)分度分布為A4(1.6,2.0)時(shí),H 系數(shù)為0.366;當(dāng)能力分布與難度分布差異較大時(shí),無論區(qū)分度多大,測驗(yàn)都達(dá)不到0.3 的低限,如B1(- 2,1)與Θ3(2,1)分布差異較大,在何種區(qū)分度分布下,H 系數(shù)均小于0.3。

      5 結(jié)論

      NIRT 模型比PIRT 的基本假設(shè)更寬松、自由,它為理解潛在能力與項(xiàng)目反應(yīng)之間的關(guān)系提供了一個(gè)更寬闊的視角。項(xiàng)目反應(yīng)數(shù)據(jù)若擬合PIRT 模型,那必然擬合NIRT 模型,某種程度上,PIRT 模型是NIRT 模型的特例。

      兩者使用不同的項(xiàng)目參數(shù)描寫項(xiàng)目的測量特性,研究的實(shí)驗(yàn)結(jié)果表明項(xiàng)目難度分布、區(qū)分度分布和被試群體的能力分布這三個(gè)因素交互影響著Hi系數(shù)和H 系數(shù),兩種模型的項(xiàng)目參數(shù)間有著復(fù)雜的關(guān)聯(lián)性。

      張軍.(2010).非參數(shù)項(xiàng)目反應(yīng)理論在維度分析中的運(yùn)用與評(píng)價(jià).心理學(xué)探新,30(3),80 -83.

      Birnbaum,A.(1957).Efficient design and use of tests of a mental ability for various decision - making problems. USAF School of Aviation Medicine,Randolph Air Force Base,Texas.

      Hambleton,R.,& Swaminathan,H.(1984).Item response theory:Principles and applications.Hingham:Kluwer.

      Han,K. T.,& Hambleton,R. K. (2007).“Windows Software that Generates IRT Model Parameters and Item Responses”WinGen3.Retrieved from http://www.umass.edu/remp/software/wingen/

      Jansen,P. W. G. (1982). Measuring homogeneity by means of Loevinger’s coefficient H:A critical discussion. Psychologische Beitrage,24,96 -105.

      Lord,F(xiàn). (1952). A theory of test scores. Psychometric Society,New York.

      Loevinger,J.(1947).A systematic approach to the construction and evaluation of tests of ability. Psychological Monographs,61,4.

      Meijer,R.R.,Sijtsma,K.,& Smid,N. G. (1990). Theoretical and empirical comparison of the Mokken and the Rasch approach to IRT.Applied Psychological Measurement,14,283 -298.

      Mokken,R.J.(1971).A theory and procedure of scale analysis.The Hague:Mouton/Berlin:De Gruyter.

      Mokken,R. J.,Lewis,C.,& Sijtsma,K. (1986). Rejoinder to“The Mokken Scale:A critical discussion”. Applied Psychological Measurement,10,279 -285.

      Roskam,E.E.,Van den Wollenberg,A.L.,& Jansen,P.G.W.(1986). The Mokken Scale:A critical discussion. Applied Psychological Measurement,10,265 -277.

      Sijtsma,K.,Emons,W.H.M.,Bouwmeester,S.,& Nyklicek,I.(2008). Nonparametric IRT analysis of quality - of - life scales and its application to the world health organization quality-of-life scale(WHOOL -Bref).Quality of Life Research,17,275 -290.

      Sijtsma,K.,& Verweij,A. C. (1992). Mokken scale analysis:Theoretical considerations and an application to transitivity tasks.Applied Measurement in Education,5,355 -373.

      Van der Ark,L.A.(2010).“Getting Started with Mokken Scale Analysis in R.”Retrieved from http://CRAN. R - project.org/package=mokken.

      猜你喜歡
      區(qū)分度試卷量表
      淺談試卷分析常用的幾個(gè)參數(shù)及其應(yīng)用
      圖形推理測量指標(biāo)相關(guān)性考察*
      江淮論壇(2018年4期)2018-08-24 01:22:30
      Module5 A Trip Along the Three Gorges
      Module5 Great People and Great Inventions of Ancient China
      Module 4 Sandstorms in Asia
      Module 1 Europe
      淺觀一道題的“區(qū)分度”
      利用垂直平分線的定義巧解題
      三種抑郁量表應(yīng)用于精神分裂癥后抑郁的分析
      初中生積極心理品質(zhì)量表的編制
      乐昌市| 咸阳市| 葵青区| 阿勒泰市| 崇文区| 江津市| 舞钢市| 特克斯县| 永定县| 和顺县| 化德县| 凉城县| 梨树县| 图片| 固阳县| 龙游县| 唐海县| 磐安县| 临海市| 浮梁县| 宁陕县| 孝义市| 铁岭县| 潮安县| 西青区| 沂源县| 奎屯市| 屯昌县| 高台县| 吐鲁番市| 贡山| 丹棱县| 开化县| 仁怀市| 平安县| 新兴县| 凯里市| 永福县| 栾川县| 大足县| 长沙市|