• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      例析Rasch模型在化學試卷質(zhì)量分析中的應用

      2017-01-05 21:55:51王桂桃嚴文法田秀云
      化學教學 2016年11期

      王桂桃+嚴文法+田秀云

      摘要:化學測試是化學課程實施的重要組成部分,對測試試卷質(zhì)量進行客觀、科學的分析具有重要意義??陀^、等距性的Rasch模型在試卷質(zhì)量分析應用中顯示出傳統(tǒng)測量模型不具備的優(yōu)勢。以某市一次中考化學模擬試題分析為例,從Rasch檢驗指標及特征量、試卷整體質(zhì)量、單維性檢驗、擬合度、測量誤差檢驗和被試水平與項目難度匹配性檢驗五個方面闡述了Rasch模型在化學試卷質(zhì)量分析中的應用,并討論了應用過程中應注意的問題。期望為一線教師進行試卷分析提供新的技術(shù)參考。

      關(guān)鍵詞:Rasch模型;化學測試;試卷質(zhì)量分析

      文章編號:1005–6629(2016)11–0014–06 中圖分類號:G633.8 文獻標識碼:B

      化學測試是化學課程實施的重要組成部分,為教師改進教學方法、調(diào)整教學內(nèi)容提供基本依據(jù),是學生自我檢驗、查漏補缺的有效途徑,在化學教學過程中扮演著教學質(zhì)量監(jiān)控和教學效果診斷等角色。因此,如何對化學測試試卷的質(zhì)量進行科學、客觀的分析具有重要意義。

      當前,試卷質(zhì)量分析主要以經(jīng)典測試理論(Classical Test Theory)和項目反應理論(Item Response Theory)為理論指導。經(jīng)典測試理論從上世紀初問世以來,經(jīng)過百年來的發(fā)展、完善,已形成了包括信度、效度、難度、區(qū)分度、標準差、平均分等在內(nèi)的一系列項目分析指標。項目反應理論作為經(jīng)典測試理論的繼承、發(fā)展,也將信度、難度等作為分析指標。Rasch模型作為一種以項目反應理論為指導的非線性概率模型,在應用該模型進行試題分析時,首先要對試題與模型的擬合性以及試題單維性進行檢驗,且Rasch分析的質(zhì)量指標給出的特征量也不同于經(jīng)典測量理論中的指標特征量。

      Rasch模型具有客觀、等距的測量優(yōu)點,因此自提出以來已經(jīng)被廣泛應用于心理學、健康學、經(jīng)濟學、社會科學等不同領域,但在中小學試卷質(zhì)量分析中的應用研究還較少。本文以某市一次化學中考模擬試卷質(zhì)量分析為例,探討了Rasch模型在化學試卷質(zhì)量分析中的應用,以期為一線教師進行試卷質(zhì)量分析提供新的技術(shù)參考。

      1 Rasch模型簡介

      Rasch模型是丹麥數(shù)學家、心理學家、教育家George Rasch于1960年提出的一種測量模型。該模型成功克服了傳統(tǒng)測量中項目難度與被試水平估計之間相互干擾的問題,使測量不再存在工具依賴和樣本依賴,從而使測量的結(jié)果達到客觀等距。模型的數(shù)學表達式如下:

      其中Pni為被試n答對項目i的概率,Bn為被試水平,Di為項目難度。當Bn=Di時,被試n答對項目i的概率值為0.5,當被試水平遠遠大于項目難度時(Bn>>Di),被試答對概率值趨近于1,相反,概率值趨近于0。Bn與Di單位相同,可加減,換言之,Di為客觀等距尺[1]。模型將被試能力水平與項目難度放在同一等距尺上,這決定了其Wright圖(懷特圖)可以直觀、簡潔地進行被試與被試、被試與項目、項目與項目之間的比較分析。

      隨著驗證Rasch模型應用軟件的不斷開發(fā)完善,國內(nèi)外學者對該模型在教育領域的應用研究也不斷深入。著名物理教學研究者Maja Planinic利用Rasch模型進行了力學概念測試的評價[2]。我國利用Rasch模型對全國大學生英語四六級考試(CET4/6)進行分數(shù)等值化已有二十多年,且效果較為理想[3]。王蕾在利用Rasch模型對PISA(Program for International Student Assessment,國際學生評估項目)試題進行分析的基礎上,討論了Rasch這種客觀等距測量量尺對完善我國教育評價及心理測量的參考價值[4]。也有學者利用該模型的DIF(Differential Item Functioning)檢驗功能進行了一些相關(guān)關(guān)系研究,比如分析教師對學生自主學習支持程度與學生化學學習的相關(guān)關(guān)系[5],學生化學學科能力與性別差異的關(guān)系[6]。除此之外,Rasch模型還被用于認知表現(xiàn)水平評價研究、題庫建設、試卷設計、學習進階研究等方面,但多數(shù)研究仍停留在理論分析層面,較少將該技術(shù)用于中小學試卷的質(zhì)量分析中。

      2 研究方法

      筆者于2016年6月對某校參加市中考模擬的全體初三年級學生進行了整群取樣,樣本人數(shù)為199,運用Winsteps3.72.3軟件對其化學成績進行了數(shù)據(jù)處理與分析,在此基礎上討論了Rasch模型在化學試卷質(zhì)量分析中的應用以及在應用過程中需要注意的問題。

      本次化學測試試卷分為選擇題與非選擇題兩個部分,選擇題共10個題目,非選擇題共17個題目。其中非選擇題又分為物質(zhì)推斷題、實驗題和化學計算題,物質(zhì)推斷題和實驗題均以填空形式呈現(xiàn),共計14個題目,化學計算題為3個題目。為滿足Rasch模型分析要求,將整套試題所有27個題目均采取二級記分,答對記1,答錯記0。利用Excel進行數(shù)據(jù)初步處理之后,將數(shù)據(jù)轉(zhuǎn)化為Winsteps3.72.3導入格式導入并分析。

      3 運用Rasch模型進行試題質(zhì)量分析

      3.1 Rasch檢驗指標及特征量

      Rasch模型使用根據(jù)殘差計算的兩個卡方擬合檢驗指標MNSQ和ZSTD進行擬合度檢驗,其中ZSTD是MNSQ的標準化形式。理想擬合情況下的MNSQ值為1,MNSQ值在0.5~1.5之間表示數(shù)據(jù)與模型預期擬合程度可接受[7],理想擬合情況下ZSTD值為0,當ZSTD值介于-2~2時,可認為擬合較好[8]。單維性檢驗指標的特征量是項目分數(shù)與可能影響因素的相關(guān)關(guān)系值,當該值介于-0.4與+0.4之間時,認為對應項目符合單維性要求,Rasch模型可對該項目進行準確分析。本研究涉及到的質(zhì)量檢驗指標包括信度、分離度、難度、被試及試題分布。信度是對試卷測試結(jié)果一致性、可靠性、穩(wěn)定性的描述,特征量Reliability大于0.70表示具有較高可信度[9]。分離度是對試題區(qū)分度的描述,分離度越高,表示試題對不同水平被試的區(qū)分度越高,特征量Separation大于2表示試題具有較高區(qū)分度[10]。Rasch模型將試題難度與被試能力水平高低放在同一量尺上,用Logit值表示難度大小與能力水平高低,在懷特圖中Logit值自上而下減小,表示題目難度降低、被試能力水平降低[11]。不同能力水平被試及不同難度試題是否呈正態(tài)分布或近正態(tài)分布可以從懷特圖中直接觀察出,無需對特定參數(shù)進行數(shù)值分析,這也是Rasch模型的直觀優(yōu)勢。

      3.2 整體質(zhì)量檢驗

      利用Winsteps3.72.3軟件對199名學生的數(shù)據(jù)進行整體質(zhì)量檢驗,結(jié)果如圖1所示。檢驗結(jié)果顯示試題及被試的MNSQ和ZSTD值均十分接近理想值,與模型擬合較好。學生整體信度(Kid Reliability=0.81,>0.70)、試題整體信度(Tap Reliability=0.97,>0.70)均較高。項目分離度(Tap Separation=5.89,>2)顯示試題能夠?qū)Σ煌芰λ奖辉嚰右詤^(qū)分。

      3.3 單維性檢驗

      Rasch模型是一種參數(shù)項目反應理論(Parameter Item Response Theory,P-IRT)模型[12]。項目反應理論建立在單維性假設的基礎上,即被試在特定項目上的表現(xiàn)可歸因為單一變量(知識、能力、人格特質(zhì)等),其他因素對被試表現(xiàn)的影響可忽略[13]。因此,單維性檢驗是運用Rasch模型進行測量分析的必要步驟[14]。當試題的Rasch檢驗結(jié)果符合單維性要求時,Rasch模型對該試題的信度、難度、區(qū)分度等分析才更為精確。對于這些單維性檢驗結(jié)果不佳的題目,不適合使用Rasch模型進行質(zhì)量分析,可結(jié)合經(jīng)典測量理論進行質(zhì)量分析。

      在Rasch檢驗中,標準殘差圖可判斷是否有其他因素影響被試反應,用于進行單維性檢驗。殘差圖橫坐標表示項目難度,縱坐標為項目分數(shù)與可能影響因素的相關(guān)關(guān)系值。標準殘差圖如圖2所示。

      從圖2中可以直觀地看出,本次測量試題的絕大多數(shù)項目在-0.4與+0.4之間,符合單維性要求,只有題目A、B、C、a顯示出受其他因素干擾,測量的不是單一心理結(jié)構(gòu)。這種涉及多維能力測量的題目(如涉及到數(shù)學計算能力的化學定量計算試題)不符合Rasch模型基本假設,就會與模型不擬合[15]。查表得出題目A、B、C、a分別對應試題3、23、19、5,需對這四個題目進行進一步分析以確定其不擬合的原因。

      3.4 題目擬合度、測量誤差檢驗

      氣泡圖(Bubble Chart)可以更直觀地顯示題目與模型的擬合程度和題目的測量誤差。如圖3所示,橫坐標為用于擬合度檢驗的未加權(quán)均方擬合統(tǒng)計量(Outfit Mean Square,簡稱Outfit MNSQ)[16],該值介于0.5到1.5之間表示結(jié)果與模型預期擬合,小于0.5表示過度擬合(Overfit),大于1.5則表示結(jié)果與模型不擬合(Underfit)[17]。從圖3可以看出該試卷中題目擬合度總體上可以接受,即大部分試題的被試反應與模型預測一致性較好,模型可對這部分試題質(zhì)量做出準確估計。但題目1的Outfit MNSQ小于0.5,即被試反應過度一致。題目3、5、6、19、23的Outfit MNSQ均大于1.5,這五個試題與模型預期結(jié)果不擬合,即被試實際作答跟模型預測結(jié)果不一致,說明高、低能力的被試都答對或答錯題目。其中題目1、3、4、6的氣泡半徑較大,表明題目測量誤差較大,測量結(jié)果不準確[18]。造成不擬合或誤差大的原因很多,比如被試在考試過程中的猜測、作弊、創(chuàng)造性作答等[19]。對于擬合不佳或難度誤差較大的題目須進一步分析,以便了解不擬合或難度誤差大的可能原因。

      3.5 題目難度與學生能力的匹配檢驗

      Rasch模型的客觀等距性反映在懷特圖中,即表現(xiàn)為懷特圖將學生能力與項目難度放在同一水平尺度上,不僅可以對不同項目難度進行對比分析,而且可直觀、簡潔地進行項目難度與學生能力的匹配檢驗。本研究中試題分析的懷特圖如圖4所示。

      圖中最左端數(shù)字是用于對比被試能力水平和題目難度的Logit量尺值,自下而上Logit值增大,表示被試能力水平升高、題目難度增加?!?”代表兩個被試者,“·”代表一個被試者,右端數(shù)字為不同題目編號。理想的試卷題目分布應該是不同難度題目均存在能力水平與之對應的被試,且在被試分布相對密集處所設置的題目數(shù)量相應較多[20]。圖4顯示大多被試能力水平在0以上,表明該試題相對被試整體水平偏易。Logit值3以上沒有與被試能力相對應的題目,而題目1、3、6太過簡單,沒有能力水平與之對應的被試。需要適當減少難度較低的題目,增加難度較高的題目,以增加不同難度題目的覆蓋面。由圖4還可看出,被試分布呈負偏態(tài)分布,這也說明試題整體難度較低,能力水平較高的被試較多。

      綜上所述,試卷整體信度較高,具有良好的區(qū)分度,與Rasch模型擬合較好,但試題難度較被試能力水平而言偏易,缺少難度較大的題目。存在個別不擬合、過度擬合、不符合單維性要求等題目,有待進行具體分析。

      4 利用Rasch模型進行試卷質(zhì)量分析應注意的問題

      利用Rasch模型進行試卷質(zhì)量檢驗可以更直觀地對試題質(zhì)量和學生能力水平加以分析,便于教師更好把握試題對應內(nèi)容的教學質(zhì)量以及學生能力發(fā)展狀況。但應用過程中存在以下值得注意的問題。

      4.1 根據(jù)實際分析需要選擇Rasch模型的相應分析功能

      Rasch模型的分析功能較多,應根據(jù)實際需要選擇相應功能進行分析。比如,許多學校的平時測驗采取教師或教科組自命題,這就可以選擇上述3.2的試卷整體質(zhì)量檢驗功能進行信度、區(qū)分度等檢驗,還可以根據(jù)3.3所述的單維性檢驗功能檢驗是否存在影響項目作答的其他因素,也可以選擇氣泡圖來分析被試在哪些項目上反應過度一致或反應與期望反差太大。又比如,在對單元小結(jié)考試的試卷分析中,教師可以選擇懷特圖來分析不同能力水平學生的分布情況,以確定本單元的教學質(zhì)量。

      上述功能只是Rasch分析中可用于試卷質(zhì)量分析功能的一部分,教師可根據(jù)實際分析需要選擇對應功能,也可結(jié)合多項功能進行分析。教師還可根據(jù)實際分析需要選擇其他的功能,如使用Rasch分析的DIF(Differential Item Functioning)檢驗功能進行不同性別學生某一化學能力的對比分析。

      4.2 根據(jù)項目實際分析情況進行項目處理

      Rasch模型對試題質(zhì)量以及被試能力的預測是基于被試反應進行的,因此,Rasch分析可對試題是否適用于相似群體的特定能力測試做出判斷。不同被試對相同試題可能做出不同反應,所以,不可以利用Rasch分析結(jié)果直接用于絕對性地判斷試題質(zhì)量高低。例如,如果將初中化學升學考試題用于化學知識競賽,再利用Rasch模型進行數(shù)據(jù)分析,分析結(jié)果可能會很不理想。

      當試題滿足單維性檢驗且與模型擬合較好時,說明被試反應與模型預測較為一致,Rasch檢驗就可以很好地對被試能力及試題質(zhì)量做出估計[21]。試卷質(zhì)量分析過程中可根據(jù)試題的各項分析結(jié)果進行試題質(zhì)量界定。但Rasch檢驗不可避免會有過度擬合、不擬合、誤差太大或不符合單維性要求項目存在。對于這些項目教師不可以盲目地加以否定,需要在進一步分析的基礎上,根據(jù)實際情況對項目進行修改或決定是否保留。

      如上述題目1檢驗結(jié)果顯示過度擬合,即學生反應過于一致。查閱試卷信息發(fā)現(xiàn),該題目考察學生對造成霧霾原因的了解,學生都知道正確選項“水力發(fā)電”是不會造成霧霾的,故幾乎所有考生均能回答對該題目,考慮到一套試題中有必要存在難度低的題目,而且該題目與STSE的思想密切相關(guān),所以該題目可以保留。再如,在對不符合單維性要求的題目5進行分析的過程中發(fā)現(xiàn),題目5結(jié)合圖形考察了“濃鹽酸具有揮發(fā)性”、“常溫下稀釋NaOH溶液,其pH減小,但不會小于7”、“同一溫度下相同物質(zhì)的飽和溶液濃度是一定的”、“Cu(OH)2沉淀可與鹽酸反應”等多個知識點,每個知識點的掌握情況及被試的讀圖能力均會影響被試對該題目的作答,所以,該題目雖然與模型不擬合,但是作為一個綜合性較高的中考模擬題可以保留??傊?,教師要學會利用Rasch檢驗結(jié)果結(jié)合實際情況合理地對項目進行處理。

      4.3 根據(jù)實際情況選擇分析軟件及其他可用技術(shù)進行Rasch分析

      可用于Rasch分析的計算機使用軟件種類較多,如Winsteps、Conquest以及Bond & Foxstep等,且功能日趨完善,操作不斷簡化。教師可選擇性地學習某一種進行應用。與Rasch分析軟件相兼容的常用數(shù)據(jù)處理軟件有Excel和SPSS,教師可結(jié)合分析要求和自身對軟件掌握的實際情況選擇合適的兼容軟件。教師還可結(jié)合實際情況選擇其他有利于將該試卷分析技術(shù)普及到實際教學測驗工作中的技術(shù),比如計算機輔助考試技術(shù)、計算機輔助閱卷技術(shù)等。

      參考文獻:

      [1][2][7][17] Maja Planinic, Lana Ivanjek, Ana Susac. Rasch Model Based Analysis of the Force Concept Inventor [J]. The American Physical Society, 2010, 3(10): 1~11.

      [3]朱正才,楊惠中,楊浩然. Rasch模型在CET考試分數(shù)等值中的應用[J].現(xiàn)代外語,2003,1(26):69~75.

      [4]王蕾.Rasch客觀等距測量在PISA中國試測研究中的實踐[J].心理學探新,2007,(4):69~73.

      [5]徐惠,陳功,馬宏佳.教師對學生自主學習支持程度與學生化學學習相關(guān)性的實證研究[J].課程·教材·教法,2016,(36):100~106.

      [6]張敏,馬宏佳.高一學生化學學科能力差異研究[J].教學研究,2016,(1):2~6.

      [8] Gavin W. Fulmer,Ling L. Liang ,Xiufeng Liu .Applying a Force and Motion Learning Progression over an Extended Time Span using the Force Concept Inventory[J].International Journal of Science Education, 2014,(36): 2917~2936.

      [9] Liu, X.Using and Developing Measurement Instrument in Science Education: A Rasch Modeling Approch Charlotte [M]. North Charlotte: Information Age Publishing, 2010: 206~208.

      [10] Wei, S. Liu , X., Jia, Y.. Using Rasch Measurement to Validate the Instrument of Student Understanding of Models in Science (SUMS) [J]. International Journal of Science and Mathematics Education, 2014,(12): 1067~1082.

      [11] Shawn M. Glynn. International Assessment: A Rasch Model and Teachers Evaluation of TIMSS Science Achievement Items [J]. Journal of Research in Science Teaching, 2012, 49(10): 1321~1344.

      [12]何壯,袁淑莉,趙守盈.教育考試中短測驗的分析方法——基于兩種項目反應理論方法的比較研究[J].中國考試,2012,10(18):18~24.

      [13] Jan-Eric Gustafsson. Testing and obtaining fit of data to the Rasch model [J]. British Journal of Mathematical and Statistical Psychology, 1980(33): 206~233.

      [14] John. M. Linacre. A Users Guide to WINSTEPS[CP\OL]. www.winsteps.com,2011. 2016-06-20.

      [15]張莉娜,王磊.對初中化學變化認知水平的評價研究——基于Rasch模型[J].中學化學教學參考,2015,(11):1~6.

      [16]楊玉琴.化學學科能力及其測評研究[D].上海:華東師范大學博士學位論文,2012.

      [18]羅德紅,龔婧.Rasch模型在試卷質(zhì)量分析中的應用——基于五六年級學生閱讀素養(yǎng)的測試卷的分析[J].教育測量與評價,2015,(1):18~22.

      [19]陳康.以PETS為例談Rasch擬合統(tǒng)計量的使用[J].中國考試,2013,(12):14~18.

      [20]王蕾. Rasch測量原理及在高考命題評價中的實證研究[J].中國考試,2008,(1):32~39.

      [21] Liu, X.. Elementary to High School Students Growth over an Academic Year in Understanding the Concept of Matter [J]. Journal of Chemical Education, 2007, 84(11): 1853~1856.

      德安县| 木里| 合山市| 射阳县| 济宁市| 抚州市| 阿尔山市| 阳春市| 永昌县| 玉树县| 格尔木市| 建阳市| 搜索| 珲春市| 沅陵县| 新疆| 阿拉善盟| 十堰市| 大同县| 长葛市| 平定县| 淳化县| 达日县| 富平县| 黄骅市| 永康市| 北流市| 墨脱县| 高碑店市| 岚皋县| 娄烦县| 小金县| 渭南市| 安乡县| 永定县| 通渭县| 清原| 麻栗坡县| 左云县| 潜山县| 新巴尔虎右旗|