• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      試題難度的主觀預估方法

      2014-11-28 07:13:42楊濤辛濤楊婷婷
      中國考試 2014年2期
      關鍵詞:預估評判主觀

      楊濤 辛濤 楊婷婷

      試題難度的主觀預估方法

      楊濤 辛濤 楊婷婷

      試題難度一般通過實際測試考生而獲得,但這種預試方法的實施具有一定局限性。難度的主觀預估方法無需依賴考生,主要由學科專家根據(jù)經(jīng)驗對試題難度進行預測,因此在中、高考等考試實踐中受到廣泛應用。在研究和實踐中,研究者們不斷完善主觀預估法,并提出不同的估計方法。本文對傳統(tǒng)的主觀評判法與配對比較的難度估計法進行介紹,以期更系統(tǒng)地認識難度的主觀預估方法,促進主觀預估法在考試實踐中的應用。

      試題難度;主觀預估;主觀評判法;配對比較

      1 引言

      試題難度是評價試題質量的重要指標,難度的準確估計對測驗編制或題庫建立都有重要意義。在不同的測量理論框架下,試題難度的含義存在差異。經(jīng)典測量理論(Classic Test Theory,CTT)用受測考生樣本在試題上的通過率表示題目難度。項目反應理論(Item Response Theory,IRT)用項目反應函數(shù)表示考生正確作答的概率與考生能力間的關系,每個項目反應函數(shù)對應一道題目,項目反應函數(shù)的曲線——項目特征曲線的拐點位置反映了該題的難度。相比而言,IRT框架下的難度更客觀地體現(xiàn)試題難度。

      無論是CTT或IRT框架下的難度參數(shù),都需要通過預試獲得。然而預試也存在一定局限性:預試必然涉及大量的人力物力投入,這要求考試項目有足夠的資金支持;預試過程中很多人提前接觸到考題,這可能引起考試安全隱患。于是,一些學者嘗試探索不依賴預試的難度預估方法。早期的難度預估主要依賴專家主觀經(jīng)驗直接判斷試題難度,這一系列方法統(tǒng)一稱為主觀評判法。項目反應理論的發(fā)展促使研究者們探索新方法,進而更有效地利用專家評判的信息,因此又發(fā)展出配對比較的IRT模型(Paired comparison IRT model),即配對比較法。除了上述兩種主觀預估方法外,研究者們還提出建立估計模型(主要包括多元回歸分析模型與人工神經(jīng)網(wǎng)絡模型)預測試題難度(Perkins,Gupta&Tammana,1995;Gorin&Embretson,2006;余嘉元,2002),并取得一些可喜的進展,但是,研究者們也指出模型預估法大多處于模擬研究或理論探討階段,在現(xiàn)實考試情境中應用的可操作性有待進一步驗證(孫恒李和金波,2008)。本文擬系統(tǒng)地介紹主觀評判法與配對比較法,評述這兩種類方法特點,并對其在今后的研究與應用進行展望。

      2 難度預估方法的介紹

      2.1 主觀評判法

      主觀評判法是指命題人員或學科專家根據(jù)個人的經(jīng)驗、觀點等,直接對題目的難易程度做出主觀的判斷。這種方法是比較傳統(tǒng)、廣泛使用的一種難度預估法,早在1928年Farmer就嘗試采取專家主觀評判的方法估計題目難度。主觀評判難度雖然不像預試那樣工程浩大,但是其具體實施也涵蓋很多細節(jié),需要一一考慮:試題難度值的不同界定;主觀評判過程中的影響因素;如何評價難度估計準確性的標準。

      2.1.1主觀評判法下的難度估計法

      主觀評判的難度并非通過CTT或IRT理論計算出來,因此難度值的具體涵義也與這兩種理論框架下的難度存在差異。我國研究者針對標準參照測驗提出基于作答影響因素的難度評估,例如盧正勇(1991)提出的考試試題的內(nèi)容難度估計——按教學目標要求衡量的試題難易程度的指標,主要依據(jù)試題所屬的認知水平層次,試題考核的知識面、知識深度,解題的推理步數(shù)、技能技巧等方面綜合評定。命題教師通過討論試題在上述屬性上的特征,對試題賦予難度等級(1~9級),九等級分別對應0.1~0.9九級內(nèi)容難度指標。相似地,申亞全和張守臣(1996)提出了絕對難度估計的概念,此難度與考生群體無關,完全依據(jù)題目自身的屬性而確定。這一難度概念與內(nèi)容難度相似,但是其評估過程更為細致,將影響試題絕對難度的每種因素劃分為5個層次,形成評價的指標體系,請專家對指標進行評定,最后依據(jù)簡單的公式獲得絕對難度。

      除內(nèi)容難度和絕對難度外,柳博(2007)介紹了目前考試中采用的一種難度——預估難度。內(nèi)容難度與絕對難度都主要從試題本身的因素來評估難度,而預估難度還進一步考慮到了考生樣本的因素。預估難度的估計是指在命題時由命題教師根據(jù)試題內(nèi)容和標準常模的答對概率,綜合考慮各種影響難度的因素進行評估而得出的試題難度。這種難度也是針對標準參照測驗提出的,其中“標準常?!保ɑ颉皹藴蕡F體”)是個重要的概念,這是指剛好達標的學生群體,主要通過命題教師來構建。難度評估專家的任務就是評價對于標準常模而言試題的難度。預估難度同時考慮了試題內(nèi)容與標準常模的作答反應兩個方面,比較全面地體現(xiàn)了考試作為標準參照測驗的難度內(nèi)涵,并且也將控制自學考試及格標準的思想融入命題過程(田霖和王橋影,2010)。

      在形式上,主觀評判法最終獲得的難度值可能是簡單的等級評定,也可能是接近于連續(xù)量表的百分評定(如1~100分評分),因此其難度值的形似CTT中的難度;但是從其內(nèi)涵考慮,正如柳博(2007)所形容的,內(nèi)容難度、預估難度與IRT的難度“神似”。

      2.1.2主觀評判過程中的影響因素

      主觀評判法中評判人員起著關鍵的作用,一般而言,評判“專家”是考試的命題組成員,可能是學科教師或學科專家,并且對該學科的考試或命題有一定實踐經(jīng)驗。專家的專業(yè)程度、對試題的剖析以及專家數(shù)量等都將影響難度估計的結果。Quereshi和Fisher(1977)的研究發(fā)現(xiàn),當以試題的實測難度值(CTT難度)作為參考評價標準,不同專家對試題難度的估計準確性存在差異。分析專家預估難度的書寫報告發(fā)現(xiàn),對題目內(nèi)容、結構展開更深入分析的專家,其難度預估的準確性更理想。因此選拔高水平的評判專家對命題與試題難度預估有重要意義,高水平不一定要求其科研能力高,柳博(2007)指出高水平的專家應當具備的特點為:教學經(jīng)驗豐富,長期從事考試課程的教學,了解學生的學習狀況等。此外,評判人員的數(shù)量也是一個重要的考慮因素。Bejar(1983)認為專家評判員的數(shù)量增多也有益于提高難度估計的準確性。不過盧正勇(1991)的研究卻發(fā)現(xiàn)將專家分為兩人一組,以兩人對難度等級的獨立評判值的均值作為試題內(nèi)容難度的估計值就可以有效提高估計效果,其結果與三人或者四人一組的估計效果差不多。

      主觀預估難度時一般都有多名專家參與難度預估工作,為了確保專家對難度估計的準確性與一致性,在難度預估前對專家進行統(tǒng)一的培訓非常有必要。一般而言,剛開始時專家們需要經(jīng)過共同討論,對難度的影響因素以及評估的標準、方法達到一致的意見,然后再選取有代表性的試題進行難度估計的練習,練習包括獨立練習與共同討論環(huán)節(jié),期間可以提供這些試題的實測信息作為參考,而后評判專家們相互交流自己在難度估計過程中的認識與觀點,經(jīng)過多次的練習與討論專家們形成的統(tǒng)一的評定標準后方可展開正式的難度預估工作。當然,培訓過程中培訓者若給予適當?shù)闹笇б矊⑵鸬接欣饔茫琎uereshi等(1977)認為請專家預估難度前先作答試題有助于專家對任務的思考,要求專家寫下詳細的評判規(guī)則等都可能有助于達到更精確的估計。

      不過,即使專家的培訓工作很充分,專家們對難度評定的標準達到一致意見,難度預估的結果也未必準確。難度預估工作的組織者或者評判專家們需要在難度預估工作中明確影響難度的試題因素有哪些、從而確定最有效的試題參數(shù)預估方法。在自學考試中,申亞全等認為影響難度的因素包括:試題涵蓋的知識點多少,試題考核的認知目標的層度,試題解答的心理加工過程,正確表征問題所需要的技巧。柳博(2007)認為除了以上幾點,還應當重點從題型角度分析題目。在不同的學科,研究者們都對影響難度的因素進行了深入的探討,如研究成果比較豐富的圖形推理測驗(Embretson,2002;李中權等人,2011)、數(shù)學測驗(辛自強,2003;魯慶云和宋乃慶,2009)。因為影響試題難度的因素很多,目前也沒有比較統(tǒng)一或令人信服的觀點,所以實際中,專家經(jīng)常根據(jù)自己的經(jīng)驗來預估試題難度,這種做法當然不可取。筆者認為以后的研究者可以從認知分析的角度提出一種通用的理論模型,確定影響難度因素有哪些方面,該理論模型提供一個適用于不同類型的題目的大框架,并允許實踐者再根據(jù)測試目的與測試內(nèi)容的不同,細化或者調整難度影響因素。事實上,有部分研究者已經(jīng)在朝著這一方向展開研究。例如,朱行建(2010)主張采用教育心理學家Biggs的SOLO評價法(Structure of the Observed Learning Outcome)來預估試題的難度;認知心理學界應用認知任務分析技術(Cogni?tive Task Analysis,CTA)建立對試題難度進行事前認知任務分析的系統(tǒng)方法。不過,研究者們還需要探討這些方法在不同學科中的適用情況,才能將其廣泛推廣。

      2.1.3如何評價難度預估的準確性

      根據(jù)難度類型的不同,預估結果的準確性評判也有不同的標準。評價者間的信度(一致性系數(shù))是很多研究中通用的一個指標(Bejar,1983;盧正勇,1991;邵志芳和余嵐,2008),若評價者間的信度較高,表明難度預估前的培訓有一定作用,專家們對難度估計的標準、影響試題難度的因素有比較統(tǒng)一的看法。除此之外,當期望預估的難度是考生在某道題上的通過率時(CTT的難度值),那么研究者就直接以實測的難度值作為評判預估值準確性的指標(Quereshi et al.,1977;東曉華和趙鳳敏,2010)。然而對于“內(nèi)容難度”與“預估難度”而言,專家們需要預估的不是整個考生群體在實際考試中的實測難度,而是從試題內(nèi)容本身出發(fā)進行難度估計,所以有研究者認為這種情況下不應該將實測難度與預估難度的吻合度作為其準確性的衡量指標。對于預估難度而言,除非能證明統(tǒng)計實測難度時選取的考生樣本與標準常模的特征高度吻合,才可以用實測難度來替代預估難度,由于這種“高度吻合”的樣本難于界定,所以預估難度的的精確性驗證很困難(柳博,2009)。

      總體而言,雖然傳統(tǒng)的主觀評判法很早就受關注,應用很廣泛,但是在實踐中仍然存在很多需要解決的問題。例如,評判專家的選擇標準,專家人數(shù)多少最為合適;專家培訓的規(guī)范性流程,培訓細節(jié)(如是否需要提供實測數(shù)據(jù),判斷培訓結束的標準等);難度預估結果的準確性評價。關于主觀評判法操作的規(guī)范化流程,筆者建議可以借鑒標準設定的相關研究成果[如Steps for Setting Standards with the Angoff Method(Arrasmith,D.G.,Hambleton,R.K.1988)①標準設定。]。此外,田霖和王橋影(2010)還提到開發(fā)難度影響因素的模型,并對其進行驗證;試題難度的等值研究,如何將預估難度賦值用于題庫建設等。

      2.2 配對比較的難度估計法

      IRT因其獲得的試題參數(shù)以及能力參數(shù)具有恒定性,被廣泛地應用于很多大規(guī)模的考試,如TOEFL、GRE考試。(van der Linden,1986)。為了更科學地編制測驗,人們開始組建基于IRT模型的題庫,從題庫中選擇已知參數(shù)的題目便可組織出滿足要求的試卷。題庫中的試題參數(shù)需要經(jīng)過大規(guī)模的樣本試測獲得,然后再經(jīng)過等值方法將所有參數(shù)校準到同一量尺上。大樣本試測意味著存在試題泄露的可能性,針對這一問題,Ozaki&Toyoda(2006)提出一種新的主觀預估難度方法,他們將Thurstone(1927)的配對比較法引入到專家對難度預估的工作中。在配對比較的估計法中,專家只需要對試題對逐個進行難度比較,最后使用改良的IRT模型分析試題配對比較的數(shù)據(jù),最后便可計算出每道題的IRT參數(shù)。

      2.2.1配對比較的難度估計法介紹

      總結Ozaki&Toyoda(2006)的方法,以最簡單的配對比較模型為例,配對比較的難度估計法包括以下步驟:(1)構造試題對,假如有n道待估計的題目,將所有試題兩兩組合,相應的待比較試題對有個。(2)請專家專家一一比較試題對,對于題目i與題目j,評判專家可以作出的判斷為“題目i比題目j難”或“題目i比題目j容易”。(3)IRT模型的構建,

      上式中,Pij代表題目i比題目j難的概率,bi是題目i的難度,bj是題目j的難度;類似于IRT模型,Qij=1-Pij,代表題目i比題目j容易的概率。該式與傳統(tǒng)IRT模型不同的是,沒有潛在能力(θ)這個未知數(shù),因此作者假定對于所有評分者,方程是相同的。(4)參數(shù)計算,定義nij0是認為題目i比題目j難的評判者人數(shù),nij1是認為題目i比j容易的人數(shù),m是總題量假定uij是所有評判者對試題對評定的反應向量,則向量uij的似然方程為,

      可見,該模型與傳統(tǒng)IRT模型相似,不過這里它假定評判者對各個試題對的評定是相互獨立的。接下來的計算方法與傳統(tǒng)IRT相同,針對各個未知數(shù)對似然函數(shù)求導,令導函數(shù)的值都為零,然后同時求解方程獲得題目參數(shù)。

      Ozaki等人(2006)認為當專家比較試題對的難度時,還可能出現(xiàn)一種反應結果是2道題沒有難度差異,因此他們將原始的2值評定改為三值評定:“題目i比題目j難”、“題目i與題目j難度相當”或“題目i比題目j容易”。此時當評判者k在比較題目i比題目j的難度,存在一個判斷標準指標θijk,θijk服從正態(tài)分布,記為,其中對于所有θijk,σ2假定為已知的常數(shù)值(Ozaki等的研究中將其值設為1)。那么此時評判者認為題目i容易的概率(比標準θijk難)是,

      記 Qi(θijk)=1-Pi(θijk)(代表將題目i判斷為難的概率),同樣地當判斷題目j為容易的概率記為Pj(θijk) ,那 么 此 時 bi>bj、bi=bj、bi<bj的 概 率 分 別 為Qi(θijk)Pj(θijk)、Pi(θijk)Pj(θijk)+Qi(θijk)Qj(θijk)、Pi(θijk)Qj(θijk)。接著仍然借鑒IRT似然函數(shù)的構建方法建立似然函數(shù),再求解方程,這里不再累述,不過在計算過程中需要消除θ參數(shù)。

      2.2.2配對比較預估法的影響因素

      配對比較的預估方法是一種比較新穎的難度預估法,但它和傳統(tǒng)的主觀評判法一樣,也受到主試選拔培訓、難度影響要素的確定等因素的影響。除此之外,它還受到待估計的題目總量、已知的固定參數(shù)數(shù)量、試題難度值本身的大小等多方面的影響。例如Ozaki等人(2006)的模擬研究表明,當待估計題量為15題時(每位專家需要判斷105個試題對),隨著評判專家數(shù)量的增多,參數(shù)估計越準確。不過盡管評判專家為20名時,配對比較法獲得的參數(shù)估計值與實測的IRT參數(shù)值也很相近。而當專家數(shù)量一定時,題目數(shù)量越多,參數(shù)估計越準確。計算題目參數(shù)過程時,若固定部分題目的參數(shù),對剩余題目參數(shù)的估計有一定幫助,固定參數(shù)的題目量越多,剩余題目的參數(shù)估計越準確,實證研究也證明了這一點。另外作者還有個有趣的發(fā)現(xiàn),對于一批試題,處于難度均值附近的題目,其參數(shù)估計的準確性更高,其原因可能是這些題目有更多的機會與相似難度的題目進行比較,從而能獲得更高的信息量,這類似于IRT中當題目難度與被試能力接近時,被試能力的估計值更準確。為了提高參數(shù)估計的準確性,Ozaki和Toyoda(2009)又提出一種改進模型,研究者從題庫中選擇出數(shù)道難度順序已知的題目,然后請專家判斷一道新題在這一批題中的難度序列,最后根據(jù)等級反應模型(一種適用于多值計分題的IRT模型)計算出題目的參數(shù)。

      當然,該方法的應用也存在一些局限性。首先,該法要求每位專家對所有可能的試題對進行判斷,所以不適用于題量過多的難度預估,否則評判專家的需要評判的任務量就過重。其次,這個方法的假設條件過多,例如專家對各個試題對的評價是獨立的、專家進行難度估計時的評價標準滿足正態(tài)分布(現(xiàn)實是為了避免試題泄露,評判專家數(shù)量一般比較少)、專家評判過程中出錯率比較低。這些假設在實際中能否滿足,如果不滿足又將帶來什么影響,這些都需要我們思考、驗證。此外,這種方法剛剛起步,還有待更多的研究證明它的有效性,驗證其適用于各種類型的題目。

      3 難度主觀預估方法的評析與展望

      無論是傳統(tǒng)的主觀評判法還是配對比較的方法,都能有效地避免題目過度曝光于公眾,并且難度估計的有效性也得到部分研究的證明。相對而言,主觀評判法的原理簡單,適用范圍廣泛,并且人們在長期的實踐中積累了相當豐富的經(jīng)驗,許多考試在命題過程中一直采用此法預估試題難度。而配對比較法的發(fā)展較晚,將來還需要更多的研究進行驗證,從數(shù)據(jù)獲得的來源角度看,該方法與傳統(tǒng)的主觀評判法一樣,只依賴于專家對題目的主觀評判。但是它具備一些獨特的優(yōu)勢:(1)簡化了專家的任務。在配對比較的預估方法中,專家的任務要簡單得多,只需要對題目的難度進行兩兩排序,然后通過模型就可以計算出連續(xù)的難度參數(shù);然而主觀評判法中,專家需要直接對每道題做出等級判斷或者給出連續(xù)量表上的參數(shù)值。(2)更科學地獲得IRT參數(shù)。從理論上講,傳統(tǒng)的主觀評判法適用性極強,適用于預估任何題型、任何學科的難度,包括CTT與IRT框架下的難度,但若想預估IRT的難度估計,前期的培訓工作將很復雜,評判專家需要具備扎實的高級測量理論知識,深入理解IRT理論。配對比較法完全可以借助計算機程序,從而通過簡單的判斷數(shù)據(jù)獲得IRT參數(shù)。(3)可以實現(xiàn)參數(shù)的等值。Ozaki等人(2006)在其模擬研究中已經(jīng)證明當采用固定某些題目的參數(shù)時,可實現(xiàn)其余題目的估計參數(shù)與舊題的參數(shù)處于同一量尺上。傳統(tǒng)主觀評判法的等值則尚待進一步的研究探討。

      當然兩種方法都存在值得進一步深入探討、改進的空間。因為本文探討的難度估計法都是依賴于評判人員,所以評判人員的培訓至關重要,以后的研究者可以探討如何標準化培訓工作從而獲得最有效的培訓結果。特別是對于傳統(tǒng)的主觀評判法而言,評判人員直接決定著評判工作的準確性,因此如何對評判專家進行培訓,實現(xiàn)偏差最小化是重中之重。為了有效指導評判人員開展難度預估工作,確定題目難度的影響因素是必備的前提。這兩種主觀預估法各自也存在一些待解決的問題,例如,主觀評判法中重視“標準常?!钡倪\用,但是這個標準常模的界定卻很含糊,目前也沒有出現(xiàn)很明確的方法(田霖和王橋影,2010);經(jīng)過適當?shù)呐嘤柡?,這種方法是否適用于估計IRT理論下的難度參數(shù)也還未知。根據(jù)目前的研究和實踐結果,配對比較的預估法適用于小規(guī)模的難度預估,那么小型的考試實踐可考慮將其采納到實際工作中,并在實踐中進一步改進方法。此外,配對比較法中存在著許多的假設性條件,為了驗證這一方法的科學性與適用性,有必要對這些假設條件的違背進行一一試驗。

      試題難度的預估是命題、題庫建立的重要工作,確保難度預估的準確性具有重要的實踐意義,本文介紹的兩種主觀預估方法均適用于保密要求較高的考試(例如中考、高考),研究者可以依據(jù)考試的特點與實際條件的許可選擇合適的方法,從而更好地為實踐服務。

      [1]Bejar,I.I.Subject matter experts'assessment of item statistics[J].Applied Psychological Measurement,1983(3):303-310.

      [2]Embretson,S.E.Generating abstract reasoning item with cognitive theory.In S.H.Irvine,&P.C.Kyllonen(Eds.),Item generation for test development(pp.219–250)[C].Mahwah,NJ:Lawrence Erl?baum Associates Publishers.2002.

      [3]Farmer,E.Concerning the subjective judgement of difficulty[J].British Journal of Psychology,1928(18):438-442.

      [4]Gorin,J.S.,&Embretson,S.E.Item difficulty modeling of para?graph comprehension items[J].Applied Psychological Measure?ment,2006,30(5):395-411.

      [5]Ozaki,K.,&Toyoda,H.A Paired comparison IRT model by 3-val?ue judgment:Estimation of item parameters prior to the administra?tion of the test[J].Behaviormetrika,2006(33):131-147.

      [6]Ozaki,K.,&Toyoda,H.Item diff i culty parameter estimation using the idea of the graded response model and computerized adaptive testing[J].Japanese Psychological Research,2009,51(1):1-12.

      [7]Perkins,K.,Gupta,L.&Tammana,R.Predicting item difficulty in a reading comprehension test with an artificial neural network[J].Language Testing,1995,12(2):34-53.

      [8]Quereshi,M.Y.&Fisher,T.L.Logical versus empirical estimates of item difficulty[J].Educational and Psychological Measurement,1977(37):91-100.

      [9]Thurstone,L.L.(1927).A law of comparative judgement[J].Psy?chological Review,34:273-286.

      [10]van der Linden,W.J.The changing conception of measurement in education and psychology[J].applied psychological measurement,1986,10(4):325-332.

      [11]戴海崎.高等教育自學考試命題難度的標準團體控制法研究[J].江西師范大學學報(哲學社會科學版),1994,27(1):89-93.

      [12]東曉華,趙鳳敏.高等教育自學考試命題預估難度準確性研究[J].中國高等教育,2010(13):68-69.

      [13]韓菡.基于人工神經(jīng)網(wǎng)絡預測漢語閱讀理解測驗題目難易度的研究[D].北京語言大學,2005.

      [14]李中權,王力,張厚粲,周仁來.不同認知成分在圖形推理測驗項目難度預測中的作用[J].心理學報,2011,43(9):1087?1094.

      [15]柳博.預估難度一種自學考試的試題難度確定方法[J].中國考試,2007(7):29-30.

      [16]柳博.預估難度的理論模型及應用探析[J].中國考試.2009(4):3-7.

      [17]魯慶云,宋乃慶.我國數(shù)學試題難度影響因素的研究綜述[J].數(shù)學通報,2009,48(4):47-49.

      [18]盧正勇.標準參考性考試試題的內(nèi)容難度及其專家共同評判法[J].應用統(tǒng)計概率,1991,7(2):201-208.

      [19]毛競飛.高考命題中試題難度預測方法探索[J].教育科學,2008,24(6):22-26.

      [20]全國高等教育自學考試指導委員會.高等教育自學考試命題工作手冊[M].北京:中國財政經(jīng)濟出版社,2005.

      [21]邵志芳,余嵐.試題難度的事前認知任務分析[J].心理科學,2008(3):696-698.

      [22]申亞權,張守臣.目標參照測驗的難度及其估計[J].中國考試(高考版),1996(3):11-12.

      [23]孫恒李,金波.高考試題難度的預估研究[J].教育理論與實踐,2008(10):3-5.

      [24]田霖,王橋影.自學考試的試題難度賦值方法評述[J].中國考試,2010(4):24-30.

      [25]辛自強.關系——表征復雜性模型的檢驗[J].心理學報,2003(4):504-513.

      [26]余嘉元.基于聯(lián)結主義的連續(xù)記分IRT模型的項目參數(shù)和被試能力估計[J].心理學報,2002,34(4):193-199.

      [27]朱行建.SOLO評價:一種試題難度預估的新方法[J].教學與管理,2010(25):76-77.

      Subjective Prediction Methods of Item Difficulty Estimation

      YANG Tao,XIN Tao and YANG Tingting

      Item difficulty is usually estimated by field test,which has some limits in practice.Subjective prediction of item difficulty doesn't need real examinees,these approaches obtain estimates mainly depending on the subject experts'experience,So subjective prediction approaches are widely applied in many test programs.And researches have proposed different subjective prediction methods based on research and test practice.This article attemps to review two of those methods systematically:direct prediction of item difficulty by experts,paired comparison method,then put forwards some advice on future directions and implementation of the methods in practice.

      Iitem Difficulty;Subjective Prediction;Direct Prediction of Item Difficulty by Experts;Paired Comparison Method

      G405

      A

      1005-8427(2014)02-0003-7

      楊 濤,女,北京師范大學教育統(tǒng)計與測量研究所,講師,博士(北京 100875)

      辛 濤,男,北京師范大學發(fā)展心理研究所,教授,博士(北京 100875)

      楊婷婷,女,北京師范大學認知神經(jīng)科學與學習國家重點實驗室,研究生,碩士(北京 100875)

      猜你喜歡
      預估評判主觀
      交流與評判
      美國銀行下調今明兩年基本金屬價格預估
      “美好生活”從主觀愿望到執(zhí)政理念的歷史性提升
      加一點兒主觀感受的調料
      基于學習的魯棒自適應評判控制研究進展
      自動化學報(2019年6期)2019-07-23 01:18:18
      刑法主觀解釋論的提倡
      法律方法(2018年2期)2018-07-13 03:22:06
      史密斯預估控制在排焦控制中的應用
      詩歌評判與詩歌創(chuàng)作
      文學教育(2016年27期)2016-02-28 02:35:12
      一句話評判
      意林注音版(2013年9期)2013-04-29 00:44:03
      主觀指導與優(yōu)劣轉化
      軍事歷史(1983年4期)1983-12-06 06:02:46
      内丘县| 屯昌县| 五台县| 屏东市| 清水县| 临颍县| 盖州市| 安仁县| 启东市| 兴仁县| 临清市| 沭阳县| 张家川| 四子王旗| 丰城市| 西昌市| 临沧市| 台北县| 宣化县| 集贤县| 巴彦淖尔市| 铁岭市| 乳山市| 博白县| 含山县| 济宁市| 呼伦贝尔市| 珠海市| 伊金霍洛旗| 芦山县| 德州市| 舟曲县| 阳江市| 临海市| 宣武区| 黔东| 沂源县| 灵宝市| 灵台县| 盱眙县| 临海市|