劉 文 邊玉芳 陳玲麗 陽碧云
與經(jīng)典測量理論相比,項目反應理論(IRT)采用非線性的模型建立被試在項目上的得分與潛在特質(zhì)之間的關(guān)系,具有題目參數(shù)的跨群體不變性、能力參數(shù)與項目難度參數(shù)定義在同一個量表上等優(yōu)良性質(zhì),這為項目反應理論的推廣應用奠定堅實的基礎。但是由于項目反應理論模型的復雜性,帶來相應的參數(shù)(題目參數(shù)、能力參數(shù))估計相對困難,在進行參數(shù)估計時通常要經(jīng)過多次復雜的迭代運算,進行運算時通常要求較大的樣本容量,并且還有可能的情況是得到的結(jié)果不收斂。
人工神經(jīng)網(wǎng)絡(Artificial Neural Networks,ANN)也稱為“神經(jīng)網(wǎng)絡”或類神經(jīng)網(wǎng)絡,是一種應用類似于人類大腦神經(jīng)突觸聯(lián)接的方式進行信息處理的數(shù)學模型,它是以對大腦的勝利研究成果為基礎,通過模擬大腦的某些機制,從而實現(xiàn)特定的功能,它是當前國內(nèi)外研究的一個前沿領(lǐng)域。人工神經(jīng)元是人工神經(jīng)網(wǎng)絡基本的信息處理單元,人工神經(jīng)網(wǎng)絡通過對大量人工神經(jīng)元按照一定的拓撲結(jié)構(gòu)組織起來,形成群體并行式處理的計算結(jié)構(gòu)。神經(jīng)網(wǎng)絡已經(jīng)應用于模式識別、圖像處理、控制和優(yōu)化、預報和智能信息管理、通信、空間科學等領(lǐng)域,顯示出無可比擬的優(yōu)勢和應用前景。BP神經(jīng)網(wǎng)絡是一種多層前饋型神經(jīng)網(wǎng)絡,可以實現(xiàn)從輸入值到輸出值的任意非線性映射,其權(quán)值的調(diào)整采用反向轉(zhuǎn)播學習算法,目前在神經(jīng)網(wǎng)絡的實際應用中,絕大部分的神經(jīng)網(wǎng)絡模型都采用BP網(wǎng)絡及其變化形式。在IRT參數(shù)估計時,也有學者運用神經(jīng)網(wǎng)絡進行IRT的參數(shù)估計[1-4],神經(jīng)網(wǎng)絡對于小樣本的參數(shù)估計也能適用[5,6],這些方法在使用神經(jīng)網(wǎng)絡時通常以經(jīng)典測量理論中的通過率P作為難度的輸入值、點二列相關(guān)系數(shù)rpb作為區(qū)分度的輸入值、題目平均得分作為能力的輸入值,相應的IRT參數(shù)b、a、θ作為神經(jīng)網(wǎng)絡的輸出值來訓練神經(jīng)網(wǎng)絡,然后使用訓練好的神經(jīng)網(wǎng)絡進行新項目的參數(shù)估計,采用訓練好的神經(jīng)網(wǎng)絡進行IRT的參數(shù)估計也能達到一定的誤差要求。
文中提出根據(jù)經(jīng)典測量理論計算的難度、區(qū)分度進行相應的轉(zhuǎn)換,在BP神經(jīng)網(wǎng)絡中運用與前人研究不同的輸入值估計IRT的項目參數(shù)的新方法,試圖減少參數(shù)估計的誤差,提高參數(shù)估計的精度。
項目反應理論通常使用一定的數(shù)學模型來刻畫被試的得分與潛在特質(zhì)的關(guān)系,項目反應理論模型通常分為二值記分的模型和多值記分的模型,其中最常用的是二值記分(0-1)的模型,二值記分的模型又分為單參數(shù)、雙參數(shù)和三參數(shù)模型,二值記分的三參數(shù)的 logistic 模型為:pi(θ)=ci+(1-ci)/(1+exp[-Dai(θ-bi)]),這里D=1.702,θ為被試的能力值,ai表示項目 i的區(qū)分度、bi表示項目 i的難度、ci表示項目i的猜測參數(shù),pi(θ)表示能力為θ的被試答對區(qū)分度為a、難度為b、猜測參數(shù)為c的項目i的概率,當被試答對該題時,得分為1,否則為0。在該模型中,當ci=0時為雙參數(shù)模型,當ci=0、ai=1時為單參數(shù)模型。假設有N個考生參加由m個項目組成的測驗,所有考生對各個項目的反應就組成一個Nm的得分矩陣U,參數(shù)估計就是尋找一組項目參數(shù)和被試的能力參數(shù),代入IRT模型后,能夠與項目反應得分矩陣U擬合得很好,在該矩陣中有N+3m個參數(shù)需要估計,這顯然是一件非常困難的事情。伯恩鮑姆(1968)建議先計算能力參數(shù)、項目參數(shù)的初值,然后分兩步進行迭代計算[7]:第一步,先假定能力參數(shù)為已知,求出項目參數(shù)的估計值;第二步,將項目參數(shù)的估計值看做項目參數(shù)的“真值”,求能力參數(shù)的估計值,這樣前后兩步稱為一輪。如果滿足收斂準則,則得到的項目參數(shù)和能力參數(shù)為所求的結(jié)果;否則,將這些值看做新一輪的初值,再進行下一輪的兩步迭代,直到結(jié)果滿足收斂準則為止。目前的參數(shù)估計方法例如MLE、EM、MCMC等都是根據(jù)伯恩鮑姆的這一思想進行的。
文中設a、b、θ服從如下分布:能力參數(shù)θ~N(0,1),即生成被試的能力參數(shù)θ服從均值為0,方差為1的正態(tài)分布;ln a~N(0,1),b~N(0,1)。使用MATLABR2007b軟件模擬生成N個被試作答m個項目的數(shù)據(jù),a、b、θ滿足上述條件。研究中采用四層的神經(jīng)網(wǎng)絡,節(jié)點數(shù)依次為10、7、3、1,前三層采用S型函數(shù)(tansig),最后一層采用線性函數(shù)(purelin)[2]。為了便于描述,以下只分兩種方法進行介紹,方法一為分別以經(jīng)典測量理論的通過率、點二列相關(guān)系數(shù)和平均得分作為網(wǎng)絡輸入估計a、b、θ,方法二為分別以IRT模型參數(shù)估計的初值作為網(wǎng)絡輸入估計a、b、θ。
方法一:利用平均得分率作為網(wǎng)絡輸入,IRT的θ為輸出值,訓練并測試網(wǎng)絡。
(1)模擬。根據(jù)模擬生成的N個被試能力參數(shù)和m個項目參數(shù)計算 pi(θ),使用蒙特卡羅方法生成被試得分矩陣U,當rij≤pij時,uij=1,否則uij=0。隨機生成30個得分矩陣。
(2)降維。根據(jù)得分矩陣U,計算每名被試對m個項目的平均得分(x/m)作為神經(jīng)網(wǎng)絡的輸入向量,以模擬被試的能力θ為神經(jīng)網(wǎng)絡的輸出值訓練神經(jīng)網(wǎng)絡。將30個平均得分向量作為網(wǎng)絡輸入訓練30個網(wǎng)絡。
(3)測試。模擬生成N1個被試能力參數(shù)和m1個項目參數(shù)計算,生成得分矩陣,計算每名被試對m1個項目反應的平均得分(x1/m1)作為神經(jīng)網(wǎng)絡的輸入向量,測試訓練好的神經(jīng)網(wǎng)絡進行被試能力輸出。分別測試訓練好的30個神經(jīng)網(wǎng)絡。計算每次測試網(wǎng)絡輸出值與模擬數(shù)據(jù)的能力值的誤差,即error=yy-θT,yy為神經(jīng)網(wǎng)絡的輸出值,θT為模擬生成的N1個被試的能力值。
方法二:利用N-R迭代求能力參數(shù)的極大似然估計的初值θ0作為網(wǎng)絡輸入,IRT的θ為輸出值,訓練并測試網(wǎng)絡。
(1)模擬。與3.1.1方法一模擬相同。
(2)降維。與3.1.1方法一的區(qū)別是輸入向量不同,輸入向量為每名被試對m個項目的得分(x)與失分(m-x)之比的自然對數(shù)ln[ ]x/(m-x)作為神經(jīng)網(wǎng)絡的輸入向量(對總分為滿分和零分的被試進行預處理,依據(jù)Conquest軟件的處理方法,滿分則減去0.3,0分則加上0.3)。
(3)測試。與3.1.1方法一的區(qū)別是輸入向量不同,ln[x1/(m1-x1)]作為神經(jīng)網(wǎng)絡的輸入向量進行測試。
項目參數(shù)a、b的兩種估計方法與能力的兩種估計方法類似。
方法一:利用每個項目與總分的點二列相關(guān)系數(shù)作為網(wǎng)絡輸入,IRT的a為輸出值,訓練并測試網(wǎng)絡。
(1)模擬。與3.1.1方法一模擬相同。
(2)降維。計算項目得分矩陣U中每個項目與總分的點二列相關(guān)系數(shù)
(3)測試。與3.1.1方法一的區(qū)別是輸入向量不同,點二列相關(guān)作為神經(jīng)網(wǎng)絡的輸入向量進行測試。
方法二:利用IRT參數(shù)估計的初值aj作為網(wǎng)絡輸入,IRT的a為輸出值,訓練并測試網(wǎng)絡。
(1)模擬。與3.1.1方法一模擬相同。
(2)降維。與3.2.1方法一的區(qū)別是網(wǎng)絡輸入的初值為aj,aj通過點二列相關(guān)轉(zhuǎn)化得到,具體為:根據(jù)得分矩陣U計算每個項目的通過率pj,并根據(jù)通過率pj轉(zhuǎn)化為標準正態(tài)分數(shù)zj,即根據(jù)計算出zj。再把點二列相關(guān)rpb轉(zhuǎn)化為二列相關(guān)rb,其公式為最后,求得輸入向量aj,即利用aj作為網(wǎng)絡輸入向量訓練網(wǎng)絡。
(3)測試。與3.2.1方法一的區(qū)別是輸入向量不同,aj作為神經(jīng)網(wǎng)絡的輸入向量進行測試。
方法一:利用每個項目的通過率作為網(wǎng)絡輸入,IRT的b為輸出值,訓練并測試網(wǎng)絡。
方法二:區(qū)別在于計算網(wǎng)絡輸入向量bj時,公式為bj=zj/rbj,利用bj作為網(wǎng)絡輸入,IRT的b為輸出值,訓練并測試網(wǎng)絡。
評價參數(shù)估計精確性的指標通常采用均方根誤差(Root Mean Squared Error,RMSE)(有些文獻稱為RMSD)和平均絕對偏差(Mean Absolute Bias,MAB)(有些文獻稱為ABS)這兩個指標,表示估計值的個數(shù),r表示網(wǎng)絡數(shù)。MAB指標反映了估計值與真值的絕對偏差的平均。MAB值越小,估計的準確性越高;RMSE指標反映的是估計值與真值偏差的離散程度。RMSE值也是越小越好。
實驗中訓練網(wǎng)絡時,訓練項目數(shù)分別取10、20、30、…、590、600(共60種實驗條件),訓練人數(shù)為100人;測試網(wǎng)絡時,測試時項目數(shù)為20題,人數(shù)為100人。每種實驗條件是循環(huán)30次后結(jié)果的平均值。
以MAB和RMSE作為不同方法估計精確度的指標,分別比較兩種方法在估計IRT兩參數(shù)模型中能力參數(shù)和項目參數(shù)的差異。
神經(jīng)網(wǎng)絡不同輸入向量對能力參數(shù)和項目參數(shù)估計的MAB指標分析結(jié)果見表1。
表1 能力參數(shù)和項目參數(shù)估計的MAB指標描述統(tǒng)計分析結(jié)果
從表1可以看出,對于難度的估計以通過率作為神經(jīng)網(wǎng)絡的輸入值比經(jīng)過轉(zhuǎn)換后的輸入值能得到更好的結(jié)果,而區(qū)分度和能力值的估計則是經(jīng)過轉(zhuǎn)換后的輸入值的結(jié)果更精確。
神經(jīng)網(wǎng)絡不同輸入向量對能力參數(shù)和項目參數(shù)估計的RMSE指標分析結(jié)果見表2。
表2 能力參數(shù)和項目參數(shù)估計的RMSE指標描述統(tǒng)計分析結(jié)果
從表2可以看出,對于難度的估計以通過率作為神經(jīng)網(wǎng)絡的輸入值比經(jīng)過轉(zhuǎn)換后的輸入值能得到更好的結(jié)果,而區(qū)分度和能力值的估計則是經(jīng)過轉(zhuǎn)換后的輸入值的結(jié)果更精確。
綜合表1、表2的結(jié)果,表明MAB和RMSE的結(jié)論具有一致性。
實驗表明,基于經(jīng)典測量理論基礎上轉(zhuǎn)換后的輸入值的區(qū)分度和能力參數(shù)的估計,神經(jīng)網(wǎng)絡參數(shù)估計的方法具有較高的精確度與穩(wěn)定性;而難度參數(shù)的估計則是通過率占優(yōu)。但對于神經(jīng)網(wǎng)絡模型來說,估計的精確性不僅與網(wǎng)絡的輸入值有關(guān)同時還與神經(jīng)網(wǎng)絡的類型也有關(guān)系,例如采用徑向基網(wǎng)絡進行模擬訓練可能會得到不同的實驗結(jié)論,這些需要進一步的研究證據(jù)支持。由于研究中主要探討兩參數(shù)的項目反應模型,這個結(jié)論是否適用于三參數(shù)的項目反應模型仍需相關(guān)證據(jù)。同時,研究采用的是簡單的0-1評分的模型,對于多值評分的模型如何使用神經(jīng)網(wǎng)絡進行估計也值得探討。
[1]譚云蘭,丁樹良,辛銳銘,等.基于IRT模型參數(shù)的BP神經(jīng)網(wǎng)絡估計[J].計算機工程與應用,2004(17):56-57,108.
[2]譚云蘭,丁樹良,辛銳銘.基于IRT模型的BP神經(jīng)網(wǎng)絡降維法參數(shù)估計及其應用[J].江西師范大學學報(自然科學版),2004,28(6):485-488.
[3]汪存友,余嘉元.一種新的基于神經(jīng)網(wǎng)絡的IRT項目參數(shù)估計模型[J].計算機應用,2006,26(4):992-994.
[4]余嘉元,陳淑燕.運用徑向基網(wǎng)絡估計項目反應模型參數(shù)的研究[J].中國考試(研究版),2005(4):24-26.
[5]余嘉元,汪存友.小樣本標準參照測驗中項目參數(shù)估計的GRNN方法[J].廣西師范大學學報(自然科學版),2006,24(4):107-110.
[6]朱隆尹,丁樹良,涂冬波,等.基于小樣本容量的IRT參數(shù)估計方法比較研究[J].心理學探新,2009,113(5):72-76.
[7]漆書青,戴海崎,丁樹良.現(xiàn)代教育與心理測量學原理[M].北京:高等教育出版社.2002.