• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于隨機交叉設(shè)計的試題計分誤差來源及可靠性分析*

      2014-03-02 03:14:36嵩王震蕾
      臺州學(xué)院學(xué)報 2014年1期
      關(guān)鍵詞:測驗交叉題型

      秦 嵩王震蕾

      (1.臺州學(xué)院 經(jīng)貿(mào)管理學(xué)院,浙江 臺州 318000;2.杭州電子科技大學(xué) 經(jīng)濟學(xué)院,浙江 杭州 310018)

      基于隨機交叉設(shè)計的試題計分誤差來源及可靠性分析*

      秦 嵩1王震蕾2

      (1.臺州學(xué)院 經(jīng)貿(mào)管理學(xué)院,浙江 臺州 318000;2.杭州電子科技大學(xué) 經(jīng)濟學(xué)院,浙江 杭州 310018)

      概化理論在標(biāo)準(zhǔn)化參照系測驗、非標(biāo)準(zhǔn)化測驗、教師教學(xué)評價和人事測評等領(lǐng)域得到了廣泛應(yīng)用。通過對某高校運籌學(xué)試題進行隨機交叉設(shè)計,探討考試試題的計分誤差來源和試題可靠性。研究表明,考生通過試題所獲得的分?jǐn)?shù)與掌握課程的真實水平之間的差異來自于考生本身掌握知識的水平、試題難易度以及考生和試題兩者的交互效應(yīng)。通過計算得出在不同題型下的變異分量估計值和試題可靠值,為測評試題的區(qū)分度和穩(wěn)定性提供了一種工具。

      隨機交叉設(shè)計;計分誤差;可靠性;試題

      一、引 言

      教育領(lǐng)域的測驗、企事業(yè)單位的人才選拔、績效考核等的測驗項目越來越多,試題是否能真正反映被試者能力或?qū)δ稠椫R的掌握水平,以及試題針對不同被試群體是否有一致的穩(wěn)定性和可靠性的研究越來越備受關(guān)注。

      1905年,比納-西蒙量表的產(chǎn)生標(biāo)志著科學(xué)標(biāo)準(zhǔn)化考試產(chǎn)生。1950年,美國學(xué)者古里科森出版《心理測驗的理論》,第一次用公理化方法系統(tǒng)總結(jié)了標(biāo)準(zhǔn)化考試的原理和方法,出現(xiàn)了較為成熟的經(jīng)典測驗理論(CTT)。由于CTT體系存在對考生真實水平的判定過度依賴于考題樣本,對考生能力估計的精度不恰當(dāng),題目難度參數(shù)與考生能力參數(shù)定義于不同量表,不利于改進測驗并達到預(yù)期目標(biāo)等缺陷,所以出現(xiàn)了討論測量條件等考試外部效度的研究,并逐漸發(fā)展成概化理論[1]??她埌秃盏热税l(fā)表《概化理論:信度理論的豐富和發(fā)展》標(biāo)志著概化理論的誕生[2]。1972年出版了第一部關(guān)于概化理論的權(quán)威專著《行為測量的可靠性:用于測驗分?jǐn)?shù)和剖面圖的概化理論》[3]。隨著研究水平及計算機技術(shù)的發(fā)展,概化理論應(yīng)用范圍越來越廣泛,如標(biāo)準(zhǔn)化參照系測驗、非標(biāo)準(zhǔn)化測驗、教師教學(xué)評價和人事測評等領(lǐng)域。

      我國學(xué)者如楊志明和張雷合著的《測評的概化理論及其應(yīng)用》一書,較系統(tǒng)的闡述了該理論的概念以及不同實驗設(shè)計情景研究。劉曉陵開展了基于課程標(biāo)準(zhǔn)的初中標(biāo)準(zhǔn)化數(shù)學(xué)成就測驗的編制研究,利用多元概化理論對心理測量學(xué)特征進行鑒定,對測驗的項目質(zhì)量、效度和信度進行了分析[4]。毛翠云利用多元概化決策建立創(chuàng)業(yè)潛質(zhì)勝任力腦象圖優(yōu)勢特征測評模型,用于綜合評價創(chuàng)業(yè)勝任力[5]。田金亭利用概化理論對基于同感評估技術(shù)的中學(xué)生創(chuàng)造力評價進行了測評,并得到總測驗比單個測驗?zāi)芨玫販y量學(xué)生的創(chuàng)造力水平,以及創(chuàng)造力具有特定領(lǐng)域化傾向[6]。國內(nèi)學(xué)者大多將概化理論應(yīng)用于中小學(xué)或高考、雅思等測驗中,鮮有對高校某課程的試題質(zhì)量和信度進行研究。本文以某高校運籌學(xué)課程為研究對象,來測評考生對于該門課程的掌握程度,并進一步利用概化理論比較不同試題類型下的考試結(jié)果的可靠性程度。

      二、概化理論基本方法

      概化理論是根據(jù)測量目的,選擇測量側(cè)面及

      水平數(shù),用樣本觀測值去估計真值,從而得到不同的測驗信度,具體包括概化研究(G研究)和決策研究(D研究)。概化研究包括明確測量對象及其潛在的特質(zhì),確定影響測驗值的因素(即測量側(cè)面)及個數(shù),設(shè)計測量對象和測量側(cè)面之間的關(guān)系(交叉、嵌套等)以及因素之間的交互效應(yīng)(變異分量值);決策研究通過確定不同的概括全域,比較測驗結(jié)果的估計精度(概化系數(shù)和可靠性指數(shù))。

      根據(jù)測量目標(biāo)、測量側(cè)面及其兩者之間的關(guān)系,概化理論包括隨機單面(多面)交叉設(shè)計、隨機單面(多面)嵌套設(shè)計、多元概化理論研究等,本文主要探討隨機單面交叉設(shè)計研究。單面交叉設(shè)計指僅有一個測量側(cè)面,且測量側(cè)面和測量目標(biāo)間具有交叉關(guān)系,側(cè)面和目標(biāo)都是隨機取樣的,總體和全域都是無限的測量設(shè)計。依據(jù)概化理論的研究步驟,隨機單面交叉設(shè)計的步驟包括G和D研究。

      (一)G研究及變異分量估計。假設(shè)被試者(測驗者)為p和試題為i,p×i表示每個被試者作答每道試題,即為交叉,則G研究交叉設(shè)計的數(shù)學(xué)模型及變異分量的估計如下:

      其中,μ為總均值,μp-μ為被試者效應(yīng),μi-μ為試題效應(yīng),Xpi-μp-μi+μ為殘余效應(yīng)(不能被模型解釋的效應(yīng))。

      由于被試p和試題i的隨機性設(shè)計,可采用方差分析技術(shù)估計出各變異數(shù)分量值,見表1。

      表1 隨機單面交叉設(shè)計(p×i)各變異分量估計公式

      (二)D研究及變異分量估計。D研究交叉設(shè)計的數(shù)學(xué)模型與G研究類似,一般地將被試者(測驗者)和試題指標(biāo)記為P和I,其變異分量的估計如下:

      由于D研究的任務(wù)是根據(jù)決策的需要,利用G研究的結(jié)果,基于不同概括全域估計出測量精確度,以提供改進測量方法的建議,所以有必要引進相對誤差(被試者在實測樣本上觀測分?jǐn)?shù)的離均差與概括全域上全域分?jǐn)?shù)的離均差之間的差值)和絕對誤差(為被試觀測分與全域分之差),前者關(guān)心被試者間的排位順序,后者反映被試者的真實水平。

      三、試題設(shè)計及數(shù)據(jù)搜集

      以某高校的運籌學(xué)課程為研究對象,測驗設(shè)計了判斷題(10題)、單項選擇題(6題)和填空題(10題)三種類型的試題,以此來測評學(xué)生對該門課程的掌握水平,通過不同題型的組合來評判試題測評的可靠性和精確性。測量目標(biāo)為測評學(xué)生對運籌學(xué)課程理解及掌握水平層次,測量側(cè)面為運籌學(xué)試題(包括三種類型),要求每位學(xué)生作答每道試題,即學(xué)生掌握水平和測試題目之間是交叉的。共有62名學(xué)生參加試題測驗。

      用三種題型分別來測評學(xué)生掌握水平,總共有7種組合:判斷、選擇、填空、判斷+選擇、判斷+填空、選擇+填空、判斷+選擇+填空。根據(jù)得到的得分矩陣可計算出不同題型組合情況下的得分均值,見表2。

      表2 不同題型組合下的得分均值情況表

      四、基于隨機交叉設(shè)計的試題研究

      (一)計分誤差來源。由表2和表1,得到基于7種題型的單面交叉設(shè)計的各種變異分量的估計值,見表3。由G研究的估計值不難得到不同題型組合的效應(yīng)或變異來源,即不同題型下學(xué)生獲得分?jǐn)?shù)與其實際知識掌握水平之間差異的來源。下面從不同角度來分析差異的來源。

      1、從學(xué)生角度p來看,不同題型組合的分?jǐn)?shù)差異由大到小順序為填空(0.0255)>選擇+填空(0.0115)>判斷+填空(0.0074)>判斷+選擇+填空(0.0057)>判斷+選擇(0.0017)>選擇(0.0011)>判斷(0.0008),此順序表明將學(xué)生最大限度的區(qū)分成不同水平的題型為填空題,其次為選擇+填空,依變異估計值的順序題型區(qū)分度逐次下降,以判斷題區(qū)分度最小。

      2、從試題題目i本身來看,區(qū)分學(xué)生掌握知識水平的效應(yīng)依次為選擇+填空(0.0529)>填空(0.0515)>判斷+填空(0.0461)>判斷+選擇+填空(0.0435)>判斷(0.0306)>判斷+選擇(0.0232)>選擇(0.0037),此次序說明以選擇+填空對學(xué)生分?jǐn)?shù)的區(qū)分度最大,其次為填空,選擇題區(qū)分度最小。

      3、從學(xué)生和試題的交叉效應(yīng)(不能被被試者和試題解釋的其他效應(yīng))p×i來看,效應(yīng)最大為填空題,最小為選擇題。

      表3 基于7種題型的運籌學(xué)試題的隨機單面交叉設(shè)計的變異分量估計值

      (二)誤差及可靠性研究。上述G研究獲得了考生計分與真實分?jǐn)?shù)之間差異來源,下面通過計算不同題型下相對誤差和絕對誤差的值來衡量影響考生排位順序的因素效應(yīng)。因為考生主效應(yīng)是測量目標(biāo),是考生真實水平的體現(xiàn),所以考生主效應(yīng)不被列入相對誤差,而試題主效應(yīng)僅是試題間的難度的反映,不能改變考生之間的排序,所以相對誤差由考生和題目之間的交互效應(yīng)組成;由于試題的難易直接影響考生的得分,所以絕對誤差由試題主效應(yīng)和試題與考生之間的交互效應(yīng)組成。其中ni'為概括全域上題目樣本的容量。

      相對誤差變異分量的估計公式:

      此外依據(jù)克龍巴赫構(gòu)建的概化系數(shù)ρ和Brennan與Kane(1977)定義的可靠性指數(shù)Φ(可靠性指數(shù)是測量目標(biāo)本身的分?jǐn)?shù)變異在全體分?jǐn)?shù)變異中所占的比例)。來評判對于測評不同考生群體的試題的穩(wěn)定性高低。概化系數(shù)ρ=σ2(p)/[σ2(p)+σ2(δ)],可靠性指數(shù)Φ=σ2(p)/[σ2(p)+σ2( )]。利用公式(4)、(5)和概化系數(shù)及可靠性指數(shù)分別計算出此試題的相對誤差、絕對誤差及可靠性值,見表4。

      表4 以隨機單面交叉設(shè)計為基礎(chǔ)的D研究結(jié)果

      由表4可知,前三類題型組合的考生與試題之間的交互效應(yīng)大于后幾類題型組合的交互效應(yīng),交互效應(yīng)、相對誤差、絕對誤差的變異均比較小,而概化系數(shù)和可靠性指數(shù)都比較大。此說明前三題型組合的測量誤差都比較小,測量的信度比較高。

      但是,不同題型組合的試題可靠性指數(shù)為40%以上的由大到小依次為填空>選擇+填空>判斷+選擇+填空>判斷+填空,此結(jié)果說明填空題在所有類型的題型中對測評不同考生群體所體現(xiàn)的可靠性最強,依次為選擇題和判斷題,從另一個側(cè)面反映選擇題和判斷題在測評考生時不夠可靠,需要進一步的修正以提高此題型的試卷的可靠性。

      五、小 結(jié)

      利用概化理論對某高校運籌學(xué)試題進行隨機交叉設(shè)計,探討了考試試題的計分誤差來源和試題可靠性,為測評試題的區(qū)分度和穩(wěn)定性提供了一種工具。研究發(fā)現(xiàn)考生通過試題所獲得的分?jǐn)?shù)與掌握課程的真實水平之間的差異來自于考生本身掌握知識的水平、試題難易度以及考生和試題兩者的交互效應(yīng);通過試題組合的可靠性指數(shù)和概化系數(shù)的計算,表明填空題的加入提高了試題的可靠性,較之選擇題和判斷題具有更強的區(qū)分力。

      [1]Cronbach,L.J.,Rajaratnam,N.&Gleser,G.C..Theory of generalizability:A liberalization of reliability theory[J].British Journal of Statistical Psychology,1963,16(1):137-163.

      [2]Cronbach,L.J.,Rajaratnam,N,Nanda,H.&Gleser,G.C.The dependability of behavioral measurements:Theory of generalizability for scores and profiles[J].New York:John Wiley,1972.

      [3]毛翠云.創(chuàng)業(yè)勝任力綜合測評研究[D].鎮(zhèn)江:江蘇大學(xué),2011.

      [4]田金亭.基于CAT的中學(xué)生創(chuàng)造力評價技術(shù)探討[D].南京:南京師范大學(xué),2011.

      [5]劉曉陵.基于課程標(biāo)準(zhǔn)的初中標(biāo)準(zhǔn)化數(shù)學(xué)成就測驗的編制研究[D].上海:華東師范大學(xué),2010.

      [6]楊志明,張雷.測評的概化理論及其應(yīng)用[M].北京:教育科學(xué)出版社,2003:50-125.

      The Analysis of Randomized Crossover Test’s Scoring Error Sources and Reliability Basing on Generalizability Theory

      Qin Song,Wang Zhenlei

      (School of Trade and Management,Taizhou University,Taizhou 318000,Zhejiang;College of Economics,Hangzhou Dianzi University,Hangzhou 310018,Zhejiang)

      Generalizability theory is widely applied to standardized tests,non-standardized tests, teaching evaluation and personnel evaluation.Basing on this theory,the paper sets up a randomized crossover design and analyzed the test’s error sources and reliability.It puts forward that the difference between examination results and true grades comes from how well the students have mastered the knowledge,the degree of difficulty of test and interaction of students and test.At last,it calculates the value of difference and reliability in different question types and provides a tool which can review the test’s differentiation and stabilization.

      randomized crossover design;scoring error;reliability;test

      G449.7

      A

      1672-3708(2014)01-0061-05

      2013-10-20

      秦 嵩(1978- ),男,陜西府谷人,講師。王震蕾(1979- ),女,浙江溫嶺人,講師。

      *本文為臺州學(xué)院教學(xué)改革研究項目(課題編號:JG2011006)的成果之一。

      猜你喜歡
      測驗交叉題型
      離散型隨機變量??碱}型及解法
      巧妙構(gòu)造函數(shù) 破解三類題型
      “六法”巧解分式方程
      《新年大測驗》大揭榜
      趣味(語文)(2018年7期)2018-06-26 08:13:48
      一次函數(shù)中的常見題型
      隨機抽樣題型“曬一曬”
      兩個處理t測驗與F測驗的數(shù)學(xué)關(guān)系
      考試周刊(2016年88期)2016-11-24 13:30:50
      連一連
      基于Fast-ICA的Wigner-Ville分布交叉項消除方法
      計算機工程(2015年8期)2015-07-03 12:19:54
      你知道嗎?
      克什克腾旗| 乌兰察布市| 阜南县| 邵武市| 达州市| 大方县| 固原市| 会泽县| 晋城| 金寨县| 平昌县| 岑巩县| 中西区| 淅川县| 东丰县| 广丰县| 新丰县| 万山特区| 防城港市| 栾川县| 长垣县| 广水市| 突泉县| 榆社县| 新干县| 城市| 金川县| 虎林市| 紫云| 眉山市| 两当县| 温宿县| 靖江市| 阳山县| 英超| 丰县| 当涂县| 鹤岗市| 赫章县| 晋州市| 江西省|