康寧
【摘要】 計算機模擬技術在醫(yī)學考試領域的研究和應用已經有多年的歷史。考試后進行數據統(tǒng)計分析,可以對試題、試卷做出評價。對于存在問題試題,可以淘汰或修改,完善后重新補充到試題庫,從而提高醫(yī)學考試命題質量。
【關鍵詞】 計算機模擬臨床病例試題 統(tǒng)計分析 命題質量
【中圖分類號】 G424 【文獻標識碼】 A 【文章編號】 1006-5962(2013)01(a)-0001-02
1 計算機模擬臨床病例考試后對答題情況統(tǒng)計分析的重要性
以往考試結束后,只分析考生的成績,評價都是從定性角度去分析,得出的結論比較籠統(tǒng)。目前采用數理統(tǒng)計對答題情況進行定量分析,從而得出一系列有關試題試卷的參數和數據,然后與規(guī)定的標準參數指標進行對比,這樣就可以反映出試卷內容的偏差,從而合理給出試卷的評價1。計算機模擬臨床病例考試把書本知識通過臨床實踐轉化為技能??荚嚱Y束后,通過對答題情況統(tǒng)計,可以得到很多有效數據信息,分析后可以確定試題命題質量。
2 統(tǒng)計分析實例
現有一個專業(yè)計算機模擬臨床病例考試,試題為不定項選擇題,70個提問,100分,隨機抽取200人答題數據,進行統(tǒng)計。
2.1 統(tǒng)計每個提問各選項答題數據,計算每個提問平均分
(1)匯總每個考生的答題數據;(2)匯總每個提問所有考生答題數據;(3)統(tǒng)計各提問內各選項考生選擇數據;(4)計算每個提問每個考生得分;(5)計算所有考生在每個提問所得平均分;(6)對所得數據進行分析。
數據異常有三種:①平均分低于0.60為異常數據;②正確答案選擇人數太少;③錯誤答案選擇人數太多。
經過分析,數據異常見表1:
數據異常的分析:①參與考試的大部分考生對該知識點沒有掌握;②命題老師出題錯誤;③題庫答案錄入時有誤。
2.2 試題難度
非二分法的試題,應以考生在該題的平均分除以該題的滿分。
難度:0.00-0.39為難,0.40-0.69為中等,0.70-1.00為容易。
通過分析,得到數據:
難題13道;難度中等試題21道;容易試題36道。
難題所占比例為18%,難度中等試題所占比例為30%,容易試題所占比例為52%。試題難易度分配比較合理。
2.3 試題區(qū)分度
區(qū)分度是試題區(qū)分考生水平的程度,試題區(qū)分度的高低意味著試題對于能力強與弱的考生在測驗分數上的區(qū)別和鑒別度的高低 。
試卷區(qū)分度反映試題區(qū)分不同水平受試者的程度,即考生的不同水平,把優(yōu)秀、一般、差三個層次的考生真正分別開。區(qū)分度高的考試,優(yōu)秀、一般、差三個層次的考生都有一定比例,如果某一分數區(qū)間考生相對集中,高分太多或不及格太多的考試,區(qū)分度則低。
先將試題分數從高往低排序,前27%的考生為高分組,后27%為低分組。分別計算兩組在該道試題的難度值P,P1=27%高分組的難度,P2=27%低分組的難度2。
區(qū)分度D=P1-P2
試題的區(qū)分度在0.4以上表明試題優(yōu)秀,0.3~0.39表明此題的區(qū)分度較好,0.2~0.29表明此題的區(qū)分度不太好需修改,0.19以下表明此題的區(qū)分度不好應淘汰。
按照區(qū)分度的算法,得到表2數據:
優(yōu)秀試題53道,較好試題3道,需修改試題9道,淘汰試題5道。
這一標準并非絕對,根據考試性質有所不同。有些較易或較難的試題,其區(qū)分度往往偏小,這類試題只要科學無誤,又是必考內容,在標準參照考試中仍可應用,不必摒棄。
2.4 信度
信度是測量考試結果一致性的指標,目的是測試結果是否穩(wěn)定可靠。測試的信度主要涉及到試題本身的可靠性和評分的可靠性這兩個方面。一般采用分半信度。對半法(the split-half method)。測試只進行一次,但將整份試卷的題目按單、雙數分成兩組來分別計分,再用公式計算整份試卷的信度系數。
求出相關系數r,再用斯皮爾曼-布朗公式進行校正,從而得出整個試卷的信度。
信度系數以1.00為最好,但實際測量都小于1.00。美國全國醫(yī)學考試委員會曾規(guī)定:信度小于0.70,則該考試所得分數價值不大;信度大于等于0.70,則可以用于常規(guī)考試。由于技能病例考試難度大于其他類別考試,因此認為信度值達到0.60以上,即可。
通過計算:
n=200 ∑xy=203177.56 ∑x=6086.19 ∑y=6619.22
∑x2=188643.04 (∑x)2=37041714.51 ∑y2= 221989.08 (∑y)2= 43814042.79
r=0.55,α=0.71。說明ID這份試卷信度是比較好的。
2.5 效度
測試效度(test validity)亦稱測試的有效性,指一套測試對應該測試的內容所測的程度。也就是說,一套測試是否達到了它預定的目的以及是否測量了它要測量的內容。
測試效度一般測試內容效度(content validity)。指一套測試題是否測試了應該測試的內容或者說所測試的內容是否反映了測試的要求,即測試的代表性和覆蓋面的程度。要有良好的內容效度,必須在考試命題、組卷時就應由命題專家及組卷人員根據考試的目標,要求對試卷內容組成進行合理設計。
內容組成應包括,各病種病例的分數比例,試題內容按教學要求掌握分類的不同層次:了解、熟悉、掌握。按試題測試目標分類的不同內容歸類:檢查能力、診斷能力、處理能力和其它能力。按試題難易度的不同內容歸類:難、中、易。
按照內容測試,ID這套試卷病種數多,覆蓋面廣,病例具有代表性。掌握層次了解、熟悉、掌握;測試目標:檢查能力、診斷能力、處理能力和其它能力;試題難易度:難、中、易都有所涵蓋。
本套試卷在命題組卷使用后,通過以上數據統(tǒng)計分析,可以得出結論:該套試題的命題質量總體良好。但是發(fā)現個別試題存在問題,為相關專業(yè)專家進行修正提供數據參考依據,經過進一步完善,補充進技能考試題庫,可以更好的為以后其它考試所使用。
3 結語
計算機模擬臨床病例試題需要在考試中得到檢驗, 只有通過試卷試題數據統(tǒng)計,提供給相關命題專家,經過分析研究,將不合格試題淘汰或修改,試題才能完善優(yōu)化,試題質量才能真正得以提升。雖然考試后數據統(tǒng)計分析工作量巨大,但是對試題試卷的命題工作具有重要意義。因此, 試題統(tǒng)計分析是考試后需要繼續(xù)深入研究的內容。
參考文獻
[1] 劉百良.試卷質量分析的數理方法[J].數理統(tǒng)計與管理,1987(6).
[2] 萬金鳳.于試卷質量的分析方法[J].山西大學學報,2006,3.