• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      預測高考考生能力水平調控高考試題難度研究探新

      2015-06-26 13:57:44李峰王蕾焦麗亞
      中國考試 2015年12期
      關鍵詞:預測值試卷題目

      李峰 王蕾 焦麗亞

      預測高考考生能力水平調控高考試題難度研究探新

      李峰 王蕾 焦麗亞

      在我國,社會各界普遍希望高考歷年分數(shù)線基本保持不變,但是由于每年題目不同,考生能力水平也有波動,要實現(xiàn)上述目標就需要預測考生能力水平并據(jù)此調控試題難度。本研究基于課題組2010年起在海南和云南試點的高考等值研究,根據(jù)項目反應理論對外錨卷進行題目參數(shù)的估計,結合條件最大似然估計和同時校準的方法,使各試卷的能力水平均置于同一量尺。再以回歸和K近鄰法建立外錨卷和高考能力水平間的預測關系,并以2014年的高考數(shù)據(jù)進行檢驗。結果顯示,在英語和數(shù)學(文、理)上,回歸方法對2014年考生能力水平的預測精度都較高,K近鄰法仍需進一步改進。

      項目反應理論;制標;預測;高考

      1 高考在教育測量領域的特點和挑戰(zhàn)

      西方較有影響的考試,如SAT、GRE等,在試卷總體難度、考生能力水平和分數(shù)均值方面的特點可簡單概括為“兩變一不變”。不變的是總體難度水平,在西方的制度、文化背景下,通過嚴格控制題目曝光率,廣泛采用題庫技術(題目可以多次使用)并以預試測試新題,再基于項目反應理論(Item Response Theory,IRT)確定新題的難度并更新題庫,保證所有題目的難度都在同一個難度量尺上,并相對穩(wěn)定。

      正式考試中,考生的分數(shù)是在題目難度已知情況下的估計值,但是考生的能力水平和總分均值都是可能變化的。在SAT的歷史上,1975年,大學委員會宣稱SAT分數(shù)持續(xù)下降引發(fā)了公眾的擔憂,并成立了一個委員會調查下降的原因。1977年,委員會發(fā)布報告稱1976—1977年的語言、數(shù)學測試分數(shù)和1962—1963年比分別下降了49分和32分,只有三分之一的1977年考生能達到1973年的平均水平[1]。同期,也出現(xiàn)了一批相關研究探討可能的原因[1~3]。

      我國高考的特點也可以概括為“兩變一不變”。當然,和SAT或GRE不同,不變的是分數(shù)線和總分均值,當然,這里說的“不變”不是和往年完全相同,而是變化很小或基本一致。教育管理部門總是希望每年的分數(shù)線和總分均值符合一線老師和家長的預期,方便與往年進行比較,也避免引起不必要的社會議題。

      所謂兩變的“第一變”是指,題目要變,出于公眾對考試信息公開的訴求,題目考完即曝光,再次使用無法達到預期目的。題目若變,總體難度水平也可變化,但出于考試安全的考慮,不能預試也無法預先得知,題目難度的把握依賴命題機構、命題人員的經驗和對往年題目的分析。兩變的“第二變”是指考生的能力水平會有波動,民間也有“高考大小年”的說法。我國基礎教育實現(xiàn)歷史性的“普九”目標后,開始進入教育質量全面提升的新階段,隨著教育投入的增加、師資水平的提高和課程改革的推進,長期看,考生能力水平會出現(xiàn)逐漸提高的趨勢。

      在題目和考生都變化的情況下,要實現(xiàn)分數(shù)線和總分均值不變,就需要在預測當年考生能力水平可能變化的情況下,調控題目難度使當年的分數(shù)線、均值和往年基本一致,這意味著有兩方面的工作:預測考生能力水平和控制題目難度。

      2 題目難度和考生能力預測的相關研究

      2.1 基于認知特征和知識點預測題目難度

      對我國的考試機構來說,每次都能編制出達到符合期望難度的新試卷來,是一個經常性的挑戰(zhàn)。目前的相關研究大都圍繞如何預測題目難度展開。早期,多以專家判斷來預測題目難度。研究者發(fā)現(xiàn)專家的判讀和題目的真實難度顯著相關,專家對題目的結構和組織分析得越詳盡,對題目難度的估計就越精確。但專家一般會低估題目難度,而且向其提供一部分真實的題目難度信息也沒有明顯提高他們對題目難度判斷的精度[4~6]。

      近期的研究轉向對題目的認知特征及知識點的分析。Cheng提出題目難度與所考察的內容、題目呈現(xiàn)的方式、要求考生完成的任務和預期回答四個方面有關:題目涉及的知識點或技能越多,表述越含蓄,步驟越多,要求回答的細節(jié)越多,則題目就越難[7]。Crisp and Hopkin的觀點與之近似,其對物理測驗的分析顯示題目難度和其所涉及的知識、認知要求、答題所需要的技能、題目的特點有關[8]。這方面的研究有明顯的學科特點,在閱讀[9~13]和數(shù)學[12,14,15]方面也得到比較明確的信息。

      2.2 預測和制標

      2.2.1 預測方法(Predicting)

      預測的目的是通過考生的其他信息(如某個試卷上的分數(shù)、幾個其他試卷上的分數(shù)、也可以是人口學的或別的信息)預測其在一個試卷上的分數(shù),無須假設兩個試卷內容相同或信度近似[16]。如果X和Y表示考生在兩個試卷上的分數(shù),考生來自總體P,那么在P上,給定X,Y的條件期望(或條件均值)就可以表示為:

      這是通過X預測Y的標準方法,給定總體P,如果X的值為x,那么E(Y|X=x,P),預測Y的值y。

      建立回歸方程是一種常見的預測方法,如以國際教育進展評估(International Assessment of Educa?tional Progress,IAEP)的成績預測美國國家教育進展評估(National Assessment of Educational Progress, NAEP)的成績[16]。以SAT預考/國家獎學金資格考試(Preliminary SAT/National Merit Scholarship Quali?fying Test,PAST/NMSQT)預測大學先修課程(Ad?vanced Placement Program,AP)的成績[17]。

      按Hastie,Tibshirani and Friedman[18]的觀點,分類和回歸的方法并沒有天然鴻溝,都可以用于預測(PP.11)。最簡單也最常用的分類方法是K近鄰法(KNearest Neighbor,KNN),其對對象的分類是由其鄰居的“多數(shù)表決”確定的,k個最近鄰居(k為正整數(shù),通常較?。┲凶畛R姷姆诸悰Q定該對象的類別。若k=1,則該對象的類別直接由最近的一個節(jié)點賦予。比較而言,KNN不依賴對于數(shù)據(jù)強假設,可應用于任意情境,其預測值精確(誤差小)但不穩(wěn)定(方差大);回歸則相反,依賴強假設,預測值穩(wěn)定但不精確。

      2.2.2 制標以保證試卷分數(shù)在共同量尺上

      預測并不能保證試卷X和Y在一個共同的量尺上,量尺制標(Scale aligning)和等值(Equating)則可以。預測、量尺制標和等值可以視為對試卷的鏈接關系從沒有假設到強假設(試卷的測量結構、難度水平和精確程度均相同)的方法連續(xù)體,而等值是這個連續(xù)體的終點[19]。量尺制標也可根據(jù)結構是否相似、信度是否近似分為多種方法。具體的討論可見 Kolen and Brennan[20]或《Educational Measure?ment》[19]的相關章節(jié)。

      由于項目反應理論(Item Response Theory,IRT)在教育測量上的廣泛應用,基于IRT的制標或等值方法可分為分別校準和同時校準(Concurrent Cali?bration,CC)兩類[20,21]。分別校準包括能力參數(shù)的線性轉換方程法和項目參數(shù)的轉換方法,后者還可再細分為平均數(shù)與平均數(shù)方法(Mean/Mean,MM)、平均數(shù)與標準差方法(Mean/Sigma,MS)、Haebara特征曲線法與Stocking and Lord(SL)特征曲線法。CC則是將兩組或多組數(shù)據(jù)合并,由采用邊際極大似然估計方法的IRT軟件同時估計出項目參數(shù)和能力參數(shù),并使之置于共同量尺上[22]。Kim and Cohen[23]等發(fā)現(xiàn)在同期數(shù)據(jù)中使用CC的方法能夠獲得更精確的結果,國內學者也發(fā)現(xiàn)類似的結果[21,24]。目前常見的IRT軟件如CONQUEST、BILOG-MG、Winstep[25]、Multilog、Parscale等都可以實現(xiàn)CC。

      在應用上,CC常見于以矩陣-區(qū)塊設計測驗,一般是將長測驗按照設計拆分為多個分測驗,或以錨題或基于共同總體假設進行能力和項目參數(shù)的同時估計。另外,考試機構為了將往年和當年試卷的參數(shù)置于共同量尺,或將CC和條件參數(shù)估計結合起來,在CC中固定錨題參數(shù)以估計新題參數(shù),使之自動與錨題在共同量尺上,如美國的州中小學統(tǒng)一考試[26]。或先以CC估計題目參數(shù),再將其轉換后置于早期測試尺度上,如由經合組織(Organization for Economic Co-operation and Development,OECD)統(tǒng)籌的學生能力國際評價項目PISA(Programme for International Student Assessment,PISA)[27],我國現(xiàn)行的四六級考試采用的也是類似辦法[28]。

      需要指出的是,分別校準和同時校準的方法都需要同時有兩套試卷的數(shù)據(jù)或相應參數(shù)。同時校準自不必言,對分別校準來說,若有兩套試卷X和Y,每年都先后測試,自然可以在X和Y之間建立校準關系,但若希望根據(jù)上一年的校準關系和當年X的參數(shù)預測Y的參數(shù),就需假設Y當年參數(shù)和上一年參數(shù)間的關系(如相等),而研究者很難找到充分的理由做出這樣的假設。

      3 研究方法

      若已知錨卷的題目參數(shù),通過“共同人”(既參加外錨卷也參加高考)并結合條件估值法,固定錨卷的題目參數(shù),可估計出高考的題目參數(shù)和全體考生的能力參數(shù)。再以“錨題”(上年考生和當年考生都作答外錨卷)將上年考生和當年考生的能力水平置于同一量尺。如此,則將上年高考、錨卷和當年高考的能力水平均置于同一量尺。

      在采用CC進行制標的時候,面臨IRT模型選擇的問題。從統(tǒng)計擬合上看,IRT模型有單參、雙參和多參的區(qū)別,不過堅持Rasch模型的學者認為Rasch模型更具測量取向,具備客觀等距的特性,考生能力間的差距與題目參數(shù)無關,也可計算考生間能力差異的大小,這些特性是雙參或多參模型沒有的[29]。測量實踐中,PISA采用的是Rasch模型[27],我們也嘗試將其用于高考數(shù)據(jù)的分析[30]。

      基于上年考生同一量尺上的兩個能力水平,在外錨卷上的θa1和高考上的θN1,可建立二者之間基于回歸或分類的預測關系,以θa1預測θN1。假設此預測關系對下年考生仍適用,則可基于下年考生參加錨卷得到的θa2來預測其在尚未到來的高考上的θN2。由于Rasch模型具有客觀等距的特性,則可比較得出當年和上年考生平均的能力差異,并將相關信息提供給命題人員作為參考。

      3.1 數(shù)據(jù)收集設計

      從2010年起,課題組在海南和云南兩省試點選取樣本學生參加高考的外錨卷,為預測當年考生能力水平提供了現(xiàn)實條件。根據(jù)各試點省上報高中學校信息,每年4月下旬抽取5所左右具有代表性的高中,高三學生以班級為單位參加外錨卷。試點省負責解決試測樣本校學生的應答動機問題。

      在上年,樣本校的高三學生(記為A1)高考前一個月參加了一個專門組織的錨測驗(記為M1),然后參加上年的高考。非樣本校的考生未參加M1(記為NA1)。同樣的過程在當年重復一遍,樣本校學生(記為A2)高考前一個月參加了錨測驗(記為M2),然后參加當年高考,非樣本校的考生未參加M2(記為NA2)。出于錨卷安全和錨題質量的考慮,兩個錨卷M1和M2有部分題目不同(見表1)。

      表1 數(shù)據(jù)收集設計

      3.2 試卷的制標過程

      以2012年和2013年海南高考英語為例,先確保2012年錨卷M1和高考處于同一量尺:

      A.自由估計2012年錨卷M1的題目難度參數(shù)。

      B.估計2012年高考英語試卷單選題的難度參數(shù)。通過準考證號將同時參加2012年試測和2012年高考的考生的作答數(shù)據(jù)匹配起來,通過固定2012年錨卷的難度參數(shù)來估計高考英語試卷單選題的難度參數(shù)(由于錨卷都是選擇題,為減少誤差,在CC時僅同時估計高考單選題的參數(shù))。

      C.通過固定2013年高考英語試卷的單選題的難度參數(shù),來估計2012年高考英語全體考生的能力參數(shù)和難度參數(shù)。

      再通過固定錨卷M1和M2中的共同題的題目難度參數(shù),來估計M2的題目難度參數(shù),以將2012年和2013年兩份錨卷置于同一量尺上。然后,再重復B和C步驟,以將錨卷M2和2013年高考處于同一量尺。

      3.3 建立錨卷和高考能力參數(shù)間預測關系

      3.3.1 選擇最接近總體的樣本

      由于建立錨卷和高考之間的預測關系僅用到樣本校學生的數(shù)據(jù),預測關系如果要推廣到全體考生,則必要條件之一是樣本校學生的代表性。課題組前期的高考等值試點研究已實現(xiàn)海南高考英語2012年、2013年數(shù)據(jù)的收集和制標過程。以外錨卷考生的高考能力值與全體考生能力均值差異較小的年份為預測樣本,同時,又以參加外錨卷考生能力值在總體中有效百分比為權重對數(shù)據(jù)進行加權后再進行比較,從中選擇差異最小的作為預測樣本。

      以2012年、2013年參加外錨卷考生的高考能力值與全部考生能力均值進行比較,進行單樣本t檢驗,t(1167)2012=18.163,p<.000,t(1676)2013= 18.15,p<.000,都達到顯著水平,Cohen’s d分別是0.53和0.443,均達到“medium”的效應。由于對預測樣本加權后t值更大,故在海南高考英語中選擇2013年的數(shù)據(jù)作為預測樣本(見表2)。

      表2 海南英語2012年、2013年外錨卷和高考能力值均值

      3.3.2 基于回歸方法的預測方程

      確定預測樣本后,為獲得擬合好且穩(wěn)定的預測關系,以線性回歸、二項式回歸建立預測方程,考慮到方差不齊的問題比較突出,又以加權最小二乘法(Weighted Least Square,WLS)建立回歸方程,從中選擇最好的模型。

      由于采用加權最小二乘法(Weighted Least Square,WLS)得到回歸方程的擬合度最好,所以由其建立的預測方程:

      3.3.3 基于KNN對預測樣本進行訓練

      考慮到回歸方法強假設的特點,也采用KNN的方法同時進行預測,即以預測樣本錨卷上的能力值為訓練數(shù)據(jù),高考能力值為訓練分類結果?;贙NN的方法,將預測樣本的數(shù)據(jù)隨機切為十份,以90%的數(shù)據(jù)為訓練數(shù)據(jù),以10%的數(shù)據(jù)為檢驗數(shù)據(jù),循環(huán)十次。每次,從K=1(最近鄰法)開始到K=50(與其錨卷能力值最接近的50個),尋找與其高考能力值誤差最小的K。再將得到的10個k進行平均并四舍五入,得到KNN方法的k。

      3.4 預測2014年高考能力水平

      根據(jù)3.2中描述的試卷的制標過程,將2014年外錨卷的能力值置于與2012年、2013年共同的量尺水平上。再根據(jù)上節(jié)確立的WLS回歸方程,將2014年外錨卷能力值作為預測變量,即可得到樣本考生若參加2013年高考可能得到的高考能力值。同樣,利用KNN方法訓練得到的K,找到與2014年外錨卷能力值最接近的K個2013年外錨卷能力值,并從中選擇與出現(xiàn)次數(shù)最多的作為其2013年高考的預測值。

      兩種方法的預測結果間有一定差別,其預測值均值分別是-0.249(SD=0.819)和-0.399(SD= 0.908),均高于2013年考生的能力均值(-1.12)。前者反映了外錨卷能力值與高考能力值間的線性關系,后者可能反映了其中的非線性部分。

      4 研究結果

      2014年高考結束后,參照3.2中的制標辦法,將高考英語的能力水平和2012年、2013年的能力水平及2012年、2013年和2014年的錨卷的能力水平均置于同一量尺上,得到海南2014年英語高考能力水平的估計值。并將同樣的制標、預測方法應用于數(shù)學(文、理),分別得到2014年的預測值和估計值(見表3、表4)。

      表3 海南英語簡單、二項式和WLS回歸模型比較

      在樣本校學生的預測方面,回歸類方法整體上優(yōu)于KNN方法,其預測值與估計值間差距較KNN更小?;貧w類方法傾向于高估,而KNN方法則傾向于低估。在學科上,無論是回歸還是KNN,英語的預測值都和觀測值間差異最小。理科數(shù)學的回歸預測值差異最大,文科數(shù)學的KNN預測值差異最大。從置信區(qū)間上看,高考英語估計值的標準誤差較小,故回歸預測值落在95%置信區(qū)間的比例反而小于數(shù)學理科,其KNN預測值落在95%置信區(qū)間的比例則最大。兩種方法上,三個學科預測值和觀測值的相關都達到顯著水平。

      若以樣本校學生高考能力水平的預測值作為全省考生整體能力水平的預測值的話,會看到明顯的高估情況,且差距較大。這主要是2014年參加錨卷考生的能力水平在各科上都顯著高于整體水平所致。其英語、文科數(shù)學和理科數(shù)學與整體水平的均值差異分別是1.08(t[1577])=47.01,p<.000)、1.09(t[784]=41.77,p<.000)和1.11(t[803]=59.23,p<.000)。

      5 討論與結論

      5.1 參數(shù)估計、制標和預測方法的綜合應用

      我國高考采用的是原始分,分數(shù)的高低不但和考生水平有關,和題目難度也密切相關,難度低,分數(shù)高,難度高,則分數(shù)低。所以,試卷間的預測關系并不一定意味著考生在兩套試卷上能力水平間的關系。試想,若一套試卷題目的難度分布服從正態(tài)分布,而另一套試卷非常容易,幾乎所有人得分都很高,那二者間關系可能更多的是反映了測量工具的特點。若希望這種預測關系僅反映考生在兩套試卷上能力水平間的關系,就需保證考生的能力水平和題目難度無關。IRT模型,尤其是采用MMLE/EM算法的IRT軟件則可以實現(xiàn)參數(shù)分離的估計[31~34],這是本研究采用IRT估計的能力參數(shù)而非原始分建立預測關系的重要原因。

      上年錨卷和高考能力分數(shù)間關系在下年是否仍然成立的假設是需要進行檢驗的。這種檢驗類似基于一個樣本建立的體重和身高間預測關系在另一個樣本上是否成立,但在檢驗以前,需保證對兩個樣本的身高或體重的測量尺度相同或通過轉換使之相同。同理,在教育測量上,至少應保證兩個錨卷的能力分數(shù)在同一量尺,兩個高考能力分數(shù)在同一量尺才能進行預測關系的檢驗。本研究以錨制標和組制標的方法確保這一點,在英語、數(shù)學(文、理)上,基于回歸的預測分別是0.72、0.57和0.5,數(shù)學的預測較低的原因可能是數(shù)學的錨卷不分文理,而高考數(shù)學的文理卷是分開命題的。

      5.2 預測結果在考試機構實踐中的應用

      建立預測關系后,無論以回歸還是KNN方法,實際上是以錨卷上的能力水平(由于兩個錨卷M1和M2結構相似、長度接近、難度相當,二者之間的制標事實上實現(xiàn)了試卷的等值,分數(shù)可以實現(xiàn)互換)預測其在2013年高考上能力水平。在預測樣本的代表性比較好的情況下,則可和2013年高考的總體能力水平進行比較。若預測發(fā)現(xiàn)2014年考生的能力水平比較高,則需適當增加2014年高考難度才能實現(xiàn)平均分和分數(shù)線基本不變,并可根據(jù)項目反應理論給出具體的調整意見。

      例如,假設2013年考生在某學科上的平均能力水平為0,則根據(jù)Rasch模型:

      可計算2013年考生答對難度參數(shù)為0的題目的平均概率(得1分)是50%。若2014年考生能力水平均值比其高0.2,則答對概率上升到55%,總分均值自然也會提高。要維持平均分和分數(shù)線基本不變,就需適當增加難度。實踐中,可給出2013年各題目實際的答對率和預測2014年的答對率的對比表供命題和組卷人員參考,幫助其編制符合要求的試卷。

      5.3 問題和未來研究方向

      從方法的比較上看,回歸類方法的精度較高,而KNN的方法誤差較大。如對英語的預測,回歸方法的均值差異只有0.037,而KNN則達到-0.188,數(shù)學(文、理)情況也類似。這主要是由于KNN是一種離散分類的辦法,未來可使用核密度函數(shù)平滑或核回歸的辦法改善預測精度。若能長期持續(xù)的進行高考等值的試點,還可結合時間序列分析的方法更進一步。

      雖然選擇預測樣本時采用在兩年樣本間進行選擇、或對樣本進行加權的辦法,但是預測樣本考生的能力水平還是明顯高出全省平均水平。若希望能通過預測樣本得到比較準確的全省考生總體的預測值,需要根據(jù)往年考生成績,綜合地理位置、學校意愿等因素,盡量選擇與總體均值差異較小的學校作為樣本校,以實現(xiàn)通過外錨卷預測高考考生能力水平的目標。

      [1]TURNBULL W W.Student change,program change:Why the SAT scores kept falling[J].ETS Research Report Series,1985,1985(2): i-10.

      [2]CHALL J S.An Analysis of Textbooks in Relation to Declining SAT Scores[J].1977.

      [3]KURTH M M.Teachers’unions and excellence in education:An analysis of the decline in SAT scores[J].Journal of Labor Research, 1987,8(4):351-367.

      [4]LORGE I,KRUGLOV L.A Suggested Technique for the Improve?ment of Difficulty Prediction of Test Items[J].Educational and Psy?chological Measurement,1952,12:554-561.

      [5]BEJAR I I,EMBRETSON S,MAYER R E.Cognitive Psychology and the Sat:A Review of Some Implications[J].ETS Research Re?port Series,1987,1987:i-73.

      [6]QUERESHI M Y,FISHER T L.Logical Versus Empirical Estimates of Item Difficulty[J].Educational and Psychological Measurement, 1977,37:91-100.

      [7]CHENG L S.On varying the difficulty of test items[C]//On varying the difficulty of test items.A paper presented at the 32nd Annual Conference of the International Association for Educational Assess?ment,Singapore.

      [8]CRISP V,HOPKIN R.Modelling question difficulty in an A-level Physics examination,London 2011.

      [9]FREEDLE R,KOSTIN I.The Prediction of Gre Reading Compre?hension Item Difficulty for Expository Prose Passages for Each of Three Item Types:Main Ideas,Inferences and Explicit Statements [J].ETS Research Report Series,1991,1991:i-53.

      [10]FREEDLE R,KOSTIN,IRENE.The Prediction of Toefl Reading Comprehension Item Difficulty for Expository Prose Passages for Three Item Types:Main Idea,Inference,and Supporting Idea Items [J].ETS Research Report Series,1993,1993:i-48.

      [11]FREEDLE R,KOSTIN I.The Prediction of SAT Reading Compre?hension Item Difficulty for Expository Prose Passages.PRPC Final Report P/J 969-60.[J].1991.

      [12]CHALIFOUR C,POWERS D E.Content Characteristics of Gre An?alytical Reasoning Items[J].ETS Research Report Series,1988, 1988:i-32.

      [13]DAVEY B.Factors Affecting the Difficulty of Reading Comprehen?sion Items for Successful and Unsuccessful Readers[J].The Jour?nal of Experimental Education,1988,56:67-76.

      [14]TATSUOKA K K,CORTER J E,TATSUOKA C.Patterns of diag?nosed mathematical content and process skills in TIMSS-R across a sample of 20 countries[J].American Educational Research Jour?nal,2004,41(4):901-926.

      [15]毛競飛.高考命題中試題難度預測方法探索[J].教育科學, 2008:22-26.

      [16]PHILLIPS G W.Expressing International Educational Achieve?ment in Terms of US Performance Standards:Linking NAEP Achievement Levels to TIMSS[J].American Institutes for Re?search,2007.

      [17]EWING M,MILLSAP R E,CAMARA W J.The relationship be?tween PSAT/NMSQT scores and AP examination grades:A followup study[J].2006.

      [18]HASTIE T,TIBSHIRANI R,FRIEDMAN J.The elements of statis?tical learning[M].City:Springer,2009.

      [19]EDUCATION N C O M I,EDUCATION A C O.Educational mea?surement[M].City:Praeger Publishers,2006.

      [20]KOLEN M J,BRENNAN R L.Test equating,scaling,and linking [M].City:Springer,2004.

      [21]焦麗亞.基于IRT的共同題非等組設計中五種項目參數(shù)等值方法的比較研究[J].考試研究,2009(2):85-99.

      [22]LORD F M.Applications of item response theory to practical test?ing problems[M].City:Erlbaum Associates,1980.

      [23]KIM S-H,COHEN A S.A comparison of linking and concurrent calibration under item response theory[J].Applied Psychological Measurement,1998,22(2):131-143.

      [24]謝小慶.對15種測驗等值方法的比較研究[J].心理學報,2000,(2):217-222.

      [25]YU C H.Test equating by common items and common subjects: concepts and applications[J].2005.

      [26]韓寧.應用項目反應理論等值含有多種題型考試的一個實例[J].中國考試,2008(7):3-8.

      [27]OECD P.PISA 2009 Technical Report[M].City:OECD Publishing Paris,2012.

      [28]朱正才.大學英語四、六級考試分數(shù)等值研究——一個基于鉚題和兩參數(shù)IRT模型的解決方案[J].心理學報,2005,37(2): 280-284.

      [29]王文中.Rasch測量理論與其在教育和心理之應用[J].Journal of Education&Psychology,2004,27(4):637-694.

      [30]王蕾.Rasch測量原理及在高考命題評價中的實證研究[J].中國考試,2008(1):32-39.

      [31]MASTERS G N.A Rasch model for partial credit scoring[J].Psy?chometrika,1982,47(2):149-174.

      [32]BOCK R D,AITKIN M.Marginal maximum likelihood estimation of item parameters:Application of an EM algorithm[J].Psy?chometrika,1981,46(4):443-459.

      [33]MURAKI E.A generalized partial credit model:Application of an EM algorithm[J].Applied Psychological Measurement,1992,16(2):159.

      [34]李峰,朱彬鈺,辛濤.十五年來心理測量學研究領域可視化研究——基于CITESPACE的分析[J].心理科學進展,2012,20(7):1128-1138.

      Exploration of Predicting the Ability of College Entrance Examinee and Adjusting the Difficulty of College Entrance Examination

      LI Feng,WANG Lei&JIAO Liya

      The stakeholders of College Entrance Examination(CEE)feel that admission scores should remain unchanged.Predicting the examinees'ability and adjusting the difficulties to keep the admission score stable is a great challenge for testing institutions because of that every examination is brand new and the mean ability level of examinees varies every year.Based on the teams'equating research about CEE in Hainan and Yunnan provinces since 2010,the study includes the following aspects:a)estimating the parameters of items and persons on external test and CEEs with concurrent calibration and conditional maximum likelihood to transform the scores from different tests onto a common scale.b)the prediction relationship was built between external test and CEE with regression model and K Nearest Neighbors(KNN)according to the past data and verified using the data of CEE in 2014.The results show that the regression model had higher prediction accuracy than KNN on English and Math subjects.

      Item Response Theory;Scale Aligning;Predicting;College Entrance Examination

      G405

      A

      1005-8427(2015)12-0003-8

      本文系2014年度國家社會科學基金項目“學校利益相關者視角下實施高考新方案的教育功效研究”(項目批準號:14BGL128)的研究成果之一。

      李 峰,男,江西財經大學,研究員(南昌 330013)

      王 蕾,女,教育部考試中心,處長,副研究員(北京 100084)

      焦麗亞,女,教育部考試中心,助理研究員(北京 100084)

      猜你喜歡
      預測值試卷題目
      IMF上調今年全球經濟增長預期
      企業(yè)界(2024年8期)2024-07-05 10:59:04
      加拿大農業(yè)部下調2021/22年度油菜籽和小麥產量預測值
      ±800kV直流輸電工程合成電場夏季實測值與預測值比對分析
      唐朝“高考”的詩歌題目
      文苑(2020年7期)2020-08-12 09:36:22
      法電再次修訂2020年核發(fā)電量預測值
      國外核新聞(2020年8期)2020-03-14 02:09:19
      關于題目的要求
      本期練習類題目參考答案及提示
      Module5 A Trip Along the Three Gorges
      Module5 Great People and Great Inventions of Ancient China
      Module 4 Sandstorms in Asia
      大兴区| 雷波县| 陇川县| 宝应县| 肃南| 阜新| 宾川县| 庄浪县| 二连浩特市| 松江区| 彭泽县| 临颍县| 正蓝旗| 姜堰市| 东明县| 铜梁县| 金沙县| 隆德县| 乳源| 沅江市| 株洲县| 贡嘎县| 吴堡县| 贞丰县| 天台县| 太湖县| 明水县| 邛崃市| 新郑市| 阿城市| 涿鹿县| 吴堡县| 阿拉善右旗| 航空| 保定市| 双桥区| 日照市| 岳西县| 晋宁县| 贵溪市| 武鸣县|