• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      關(guān)于“考試”,我們了解多少?

      2015-06-16 06:22:13廖先祥莫海浪
      廣西教育·D版 2015年5期
      關(guān)鍵詞:區(qū)分度道題試卷

      廖先祥+莫海浪

      前面我們已經(jīng)知道了一份試卷需要符合一定的可靠性和有效性要求,否則用這份試卷來考查學生就沒有太大的意義,反而會加重學生的學習負擔。但是,終究我們是需要考試的,在中小學,我們或者把它作為學生畢業(yè)評判的依據(jù),或者把它作為學生升學的依據(jù),或者把它作為了解學生單元學習目標是否達成的依據(jù),等等。也就是說,我們所命制的試題,要起到判別和篩選的作用,要具有與測試目的相符的區(qū)分學生不同水平的功能。

      問題5:我們所用的試卷能否區(qū)分出學生的不同學業(yè)水平?

      在經(jīng)典測量(考試)理論里,區(qū)分度是我們特別關(guān)注的一個重要指標。區(qū)分度又叫鑒別力,用以表示試題對學生實際學業(yè)水平的區(qū)分程度。做同一道試題,如果實際水平高的學生得分高,實際水平低的學生得分低,就說明這道題具有良好的區(qū)分度。圖1中“按分數(shù)的特性曲線(S)”是某次考試第10題(即項目10)學生不同能力水平所能答對該題的概率圖,從左到右,它說明隨著學生能力的變化,學生答對該題的可能性在增大。對于一道題的檢測如此,對于一份試卷的區(qū)分度檢測與此大同小異。圖2的“測試特性曲線”就是我們組織某次自治區(qū)大型考試時數(shù)學卷所表現(xiàn)出來的區(qū)分度水平曲線圖。所以說,試題的區(qū)分度是我們編制試卷篩選試題和評價試題質(zhì)量的一個重要依據(jù)。

      在經(jīng)典測量理論中,區(qū)分度常用D來表示。研究教育測量的專家們煞費苦心地設計出計算區(qū)分度的好多種方法,其中有一種常用的方法,叫做鑒別指數(shù)法。鑒別指數(shù)法先將考生測驗所得成績按從高到低排序,再按照一定的比例分出高分組與低分組(一般按成績前27%與后27%的考生的成績分組),并計算出高分組和低分組在某道或某些試題上通過率的差,用這個差值來確定這道或這些試題的區(qū)分度,即D值。在互聯(lián)網(wǎng)上,關(guān)于鑒別指數(shù)的文章可謂汗牛充棟,我們很容易找到計算D值的公式和例子。但是,因為這種方法只使用高分組和低分組的數(shù)據(jù),浪費了中間超過三分之一的數(shù)據(jù),所以,其所得結(jié)果其實并不夠準確。為此,教育測量專家們又想出了一種更適合在大規(guī)模的測驗或標準化測驗中采用的方法,這就是相關(guān)系數(shù)法。相關(guān)系數(shù)指的是題目與效標的相關(guān)度。由于效標分數(shù)不容易取得,我們常以考生總分作為效標,下面就是專家們給出的一個叫“Pearson相關(guān)系數(shù)”的計算公式:

      r=

      “Pearson相關(guān)系數(shù)”的計算公式已經(jīng)廣泛應用于各種類型的測試分析。這個公式看上去很復雜,但其實它是操作最簡單的一種方法。我們不需要懂得公式里各個字母的含義,只需在計算機里安裝一個“SPSS”軟件,點幾次鼠標,就可以求出各題與總分的相關(guān)系數(shù)(以下稱“題總相關(guān)”),即各題的“r”值了。下面我們以2014年柳州市的中考語文試卷為例,用SPSS軟件來計算各道試題的題總相關(guān)系數(shù)。

      第一步:把每個學生的每道題的得分輸入或?qū)氲絊PSS軟件中,如圖3。

      圖3

      第二步:在SPSS菜單中選取“分析”→“度量”→“可靠性分析”,如圖4。

      圖4

      第三步:把左邊的代表各小題的變量名都選放到右邊項目欄中,如圖5;然后點擊統(tǒng)計量按鈕,出現(xiàn)如圖6的窗口。

      圖5

      第四步:

      在圖6中,用鼠標勾選“如果項已刪除則進行度量(A)”選項后,點擊繼續(xù),回到上一窗口,然后點擊“確定”即可。

      第五步:在軟件的輸出查看器中,可以查看各題的題總相關(guān)系數(shù),如圖7。

      圖7

      細心的你可能已經(jīng)發(fā)現(xiàn),上面的操作跟前面討論信度時的操作差別不大。我們把各題的題總相關(guān)系數(shù)單獨列表,如表1。

      表1

      各題的題總相關(guān)系數(shù)求出來以后,接下來的問題,就是判斷相關(guān)系數(shù)多大的題才算是具有良好的區(qū)分度。我們可以參考一位叫艾伯爾的測驗專家給出的判斷指標,見表2。

      表2

      由表1和表2可以看出,上面那份語文試卷的絕大部分試題的區(qū)分度都是優(yōu)良的、令人滿意的,只有第3、6、8題的分值較低,區(qū)分度不夠理想。

      最后,我們需要對區(qū)分度作出幾點說明:第一,當區(qū)分度的值介于-1至1之間時,一般來說,數(shù)值越大,區(qū)分度越好;如果數(shù)值小于0,說明題目本身可能存在問題。第二,區(qū)分度是有相對性的,它與計算方法、考生能力、試題難度甚至考生數(shù)量等都有關(guān)系。舉個例子,同一道試題,如果在全市中考中有良好的區(qū)分度,但用來測試一個能力水平較高的群體時,它的區(qū)分度有可能會很低。第三,對試題的區(qū)分度進行評價,并沒有一定的標準,艾伯爾的表格只是一個常用的參照。如果要求很嚴謹,還可以對各題的題總相關(guān)系數(shù)進行統(tǒng)計顯著性檢驗,或者換一種方法進行計算。能在不同算法中都獲得良好評價的試題,其區(qū)分度一定是理想的。測量專家告訴我們,對大規(guī)模測試,相關(guān)系數(shù)法是多數(shù)情況下首選的方法。第四,通常我們篩選試題時,都要考慮測驗的目的、功能以及考生群體的總體水平,而區(qū)分度作為篩選試題的重要指標,并不是唯一的標準。正如前面例子當中,柳州市的中考語文試卷同時承擔了初中生畢業(yè)與升學兩項測試功能,出現(xiàn)個別區(qū)分度不甚理想的試題是正常和允許的。第五,通常一道試題對不同分數(shù)段人群都有區(qū)分能力,并且會對某個能力水平的人群有較強的區(qū)分能力。一份試卷亦然,一份試卷是由若干道試題組合而成,前面的圖2便是整份試卷的區(qū)分度圖形。不過,如果簡單地用“試卷的區(qū)分度”這一概念去評價一份試卷,就顯得比較粗糙了。

      問題6:怎樣衡量試題的難易程度和整份試卷的難易程度?

      我們希望一份試卷具有很高的信度,能夠比較全面地考查出我們想要考查的內(nèi)容,還能讓我們看出哪些考生處在什么水平,把考生的學業(yè)水平逐個地甄別出來,理想的做法當然是出很多道試題,每一道試題有不同的難度,從很容易到很難,然后再看看考生能做到哪一道試題、做對到哪一道試題,這樣我們就很容易甄別出他們的不同學業(yè)水平了。然而,新的問題又出現(xiàn)了:我們該怎樣衡量試題的難易程度呢?endprint

      比如我們在一次對廣西普通高中部分高三學生(樣本為14 575人)進行英語水平測試時有這樣兩道題:

      22.— I use your dictionary for a while?

      —Yes,of course.

      A.May B.Must C.Need D.Will

      24.—Oh,Susan,you look very beautiful in this new skirt!

      A.No,not so beautiful. B.I dont think so.

      C.Of course not. D.Thank you.

      這兩道題中究竟哪道題難一些呢?其難度相差有多大,我們又該如何判斷呢?

      難度是指考生做試題時所遇到的困難程度。一道試題,如果大部分考生都能順利做對,試題的難度就小;如果大部分考生都不能做對,試題的難度就大。你可能會問,一道試題究竟難到什么程度,或者這道試題比那道試題究竟難了還是容易了,應該有一個衡量的標準吧?是的,在經(jīng)典測量理論里,通常以一個數(shù)值來定量地刻畫試題的難易程度,并用字母P表示,P就是試題的難度系數(shù),簡稱難度(不同的書里有時用不同的字母表示)。

      測量學的專家們給出的試題難度的計算方法不止一種,如通過率法、極端分組法等,甚至在測量多項選擇題的難度時還要作出相應的校正。而在各種算法中,最為常用也最好理解的難度計算公式是P=.其中[x] 是全體考生在某試題上的平均得分,xmax是該試題的賦分值。比如:有一道考查一年級學生兩位數(shù)以內(nèi)加減法運算能力的應用題,題目賦分是5分,10名學生做該題分別得出了下面的分數(shù),見表3。

      表3

      根據(jù)表3,我們可以求出10名學生在該題上的平均得分[x] ==3.6。由于該題賦分為5分,于是我們就可以用上面給出的公式求出這道題的難度值P==0.72。

      對于一道試題來說,賦分值是一定的,學生越容易得分,平均得分就越高,P值也就越大。所以說,試題難度系數(shù)越大,表示這道題越容易。如果所有學生都得了滿分,題目難度值就是1;如果所有學生都沒得分,題目難度值就是0。

      也許你又要反駁我們了:“你們這個例子太理想化了,哪里會只有10名學生參加考試呀?一個年級說不定有幾百個學生呢。退一步說,即便是10名學生,我換10名學生來做,題目的難度未必就是0.72?!笔堑模阋呀?jīng)看出來了,一道題的難度與參加考試的學生群體是緊密相關(guān)的,離開考試對象談試題難度是沒有意義的,這就是經(jīng)典測量理論中關(guān)于難度這一指標的局限性。我們會在后續(xù)的項目反應理論的相關(guān)內(nèi)容中再來談談這個問題。不過在實際運用中,由于每次考試的考生群體是事先確定的,這便可以保證試題難度的相對穩(wěn)定了。

      我們再來討論一個問題。假定在上面的例子中,我們同時算出了另外兩道題的難度值分別為0.82和0.92,也就是說,有三道題,其難度值分別是0.72、0.82、0.92,那么是不是可以斷定第一、第二題的難度之差與第二、第三題的難度之差是相等的呢?這是個很有意思的問題。三道題的難度依次相差0.10,但是卻不能下這個結(jié)論。實際上,難度指標P只是表示了試題的相對難度順序,卻不能指出難度差異的大小,我們可以說,第一題最難,第三題最容易,僅此而已。如果需要更多的信息,首先得把它轉(zhuǎn)成等距量表才能作進一步分析。關(guān)于什么是等距量表、怎么分析,這就不是我們今天要討論的內(nèi)容了。

      我們分析試題的難度,目的是篩選題目。那么,要多大難度才算是好的試題呢?這取決于考試的目的和性質(zhì)。值得一提的是,難度和區(qū)分度是密切相關(guān)的。例如,一道題如果學生都做對了或都做錯了,難度P是1或0,也就無法區(qū)分學生的學業(yè)水平了,試題的區(qū)分度是0。表4顯示了試題的區(qū)分度與難度的關(guān)系。

      由表4可以看出,難度過大或過小的題,其區(qū)分度都不夠理想;題目難度越接近0.50,它的潛在區(qū)分度就越大。

      整份試卷的難度,同樣可以用公式P=算出來,只不過其中的[x] 是全體考生的平均成績,xmax是該份試卷的滿分值。當然,和一道試題的難度一樣,試卷的難度同樣跟考生群體有關(guān)。

      (責編 白聰敏)endprint

      猜你喜歡
      區(qū)分度道題試卷
      誤會
      淺談試卷分析常用的幾個參數(shù)及其應用
      圖形推理測量指標相關(guān)性考察*
      江淮論壇(2018年4期)2018-08-24 01:22:30
      Module5 A Trip Along the Three Gorges
      Module5 Great People and Great Inventions of Ancient China
      Module 4 Sandstorms in Asia
      Module 1 Europe
      這道題誰會做
      淺觀一道題的“區(qū)分度”
      單維參數(shù)型與非參數(shù)型項目反應理論項目參數(shù)的比較研究*
      心理學探新(2015年3期)2015-12-27 06:25:14
      沂源县| 亚东县| 双鸭山市| 大港区| 赞皇县| 江西省| 昌吉市| 华亭县| 长白| 桃园县| 偏关县| 集贤县| 武平县| 庆云县| 屯昌县| 乌兰浩特市| 综艺| 五家渠市| 新疆| 临颍县| 郴州市| 诏安县| 安庆市| 永定县| 汉源县| 彩票| 宁城县| 玉屏| 潞西市| 社旗县| 旬阳县| 永城市| 贵州省| 黄山市| 阜城县| 军事| 灵山县| 交口县| 桂平市| 壤塘县| 高要市|