紀(jì)宏偉(江蘇教育學(xué)院如皋分院 江蘇 如皋 226500)
基于SPSS的試卷分析與解讀
紀(jì)宏偉
(江蘇教育學(xué)院如皋分院 江蘇 如皋 226500)
試卷質(zhì)量分析是考試中的一項(xiàng)重要任務(wù),也是教學(xué)效果檢測的重要依據(jù)??茖W(xué)、合理、有效的試卷分析顯然有助于教師的教學(xué)和考試命題工作。本文通過實(shí)例,采用SPSS對數(shù)學(xué)考試進(jìn)行各種定量分析,旨在為反饋教學(xué)效果、評價(jià)教學(xué)質(zhì)量和科學(xué)編制試題提供依據(jù)。
SPSS;試卷分析;統(tǒng)計(jì)解讀
試卷質(zhì)量分析是考試之后的一項(xiàng)重要工作。根據(jù)試卷分析所得到的反饋信息,可以判斷學(xué)生對知識的掌握情況,以總結(jié)教學(xué)經(jīng)驗(yàn)和方法,反思教學(xué)過程的各個(gè)環(huán)節(jié),及時(shí)調(diào)控教學(xué)策略和做出科學(xué)有效的決策,為不斷進(jìn)行教學(xué)改革、提高教學(xué)質(zhì)量提供客觀依據(jù)。同時(shí),考試后對試卷進(jìn)行量化分析,對于提高教師編制試卷的能力,指導(dǎo)課程試題庫的建設(shè),促進(jìn)試卷標(biāo)準(zhǔn)化、考試科學(xué)化,都有積極的意義和應(yīng)用價(jià)值。
但是,面對大量的考試數(shù)據(jù),教師常感到束手無策,對如何分析和解讀數(shù)據(jù)以及如何對考試和教學(xué)進(jìn)行客觀評價(jià)感到困難重重,致使考試結(jié)果中蘊(yùn)藏的大量信息白白浪費(fèi),極大削弱了考試的教育評價(jià)機(jī)能。筆者的目的就是幫助廣大數(shù)學(xué)教師借助SPSS對數(shù)學(xué)考試試卷進(jìn)行科學(xué)、合理、有效的分析,為教學(xué)質(zhì)量評價(jià)、教學(xué)水平評估和從題庫遴選試題并有效施考提供科學(xué)依據(jù)。本文所述內(nèi)容,對于其他學(xué)科教師而言同樣具有參考價(jià)值。
(一)數(shù)學(xué)試卷結(jié)構(gòu)試卷結(jié)構(gòu)見表1。
表1 題型和題值分布表
(二)定義變量和數(shù)據(jù)錄入
啟動SPSS,在SPSS的數(shù)據(jù)編輯器界面,點(diǎn)擊 Variable view標(biāo)簽,在Name標(biāo)題下定義:學(xué)號(ID)、題號(T1,T2,T3,……,T18)、總成績(sum)、平時(shí)成績(ps)。單擊Data view標(biāo)簽,將共計(jì)40份試卷按照各題的得分情況依次輸入SPSS。平時(shí)成績由兩部分構(gòu)成:作業(yè)+課堂表現(xiàn),將其數(shù)據(jù)輸入表格的最后一列。
(一)描述性測度分析
用來描述考試分?jǐn)?shù)的數(shù)字稱為描述性測度。運(yùn)行菜單【Analyze→Descriptive Statistics→Frequencies】,出現(xiàn)Frequencies計(jì)算對話框,將要計(jì)算的變量名(sum)導(dǎo)入“Variable(s)”下的方框中,同時(shí)在“Frequencies:Statistics”對話框中確定要計(jì)算的描述性統(tǒng)計(jì)量,如“Mean”、“Range”等,最后輸出結(jié)果,見表2。
表2 測度統(tǒng)計(jì)量表
這里是對試卷總分(sum)進(jìn)行測度分析。通過計(jì)算總分的平均值(Mean)、眾數(shù)(Mode)等指標(biāo),反映考生成績集中所在的分?jǐn)?shù)段,代表了考生的集體水平,通過計(jì)算總分的標(biāo)準(zhǔn)差(Std. Deviation)、 方 差(Variance)等指標(biāo),反映考生之間的差異,通過偏度(skewness)、峰度(kurtosis)等指標(biāo)來檢查樣本是否符合正態(tài)分布,幫助判斷其與正態(tài)分布的異同。在Frequencies對話框中,點(diǎn)擊Charts按鈕,勾選Histograms和With normal curve,輸出頻率直方圖及正態(tài)分布表,如圖1所示。
圖1 頻率分布圖
(二)難度分析
試題難度是指全體被測試對象對該題的失分率。建立一個(gè)包含均值Mean和各題滿分W的數(shù)據(jù)文件,單擊【Transform→Compute】,在Numeric expression中,輸入公式:Mean/W,在Target Variable中,輸入難度系數(shù)P,即可得到各題的難度系數(shù),見表3。
表3 各題的難度系數(shù)表
試題難度值與試題實(shí)際難易程度正好相反,P值越大表示能夠正確解答該題的學(xué)生越多,說明試題越容易,而難度值越小則試題越難。難度適中更能客觀地反映出學(xué)生的學(xué)習(xí)情況。一般來講,對于試題難度的測量,可以參照表4來評價(jià)。
表4 試題難度評價(jià)表
(三)區(qū)分度分析
區(qū)分度是指試題對學(xué)業(yè)水平不同的學(xué)生的區(qū)分程度或鑒別能力,是反映試題效用高低的參數(shù)。在進(jìn)行區(qū)分度分析時(shí),常以考試總分作為被測試對象的實(shí)際能力水平,而把被測試對象在某題上的得分與總分之間的相關(guān)關(guān)系作為該題的區(qū)分度。區(qū)分度的計(jì)算方法很多,一般對客觀題采用皮爾曼(Spearman)等級相關(guān)分析,對主觀題采用皮爾遜(Pearson)相關(guān)分析。單擊【Analyze→Correlate→Bivariate】,在彈出的Bivariate Correlations對話框中選擇各個(gè)客觀題字段(T1~T12)和總分(sum)字段進(jìn)入,點(diǎn)擊Spearman,完成后便可得客觀題區(qū)分度。主觀題的區(qū)分度分析方法同上。選擇主觀題(T13~T18)和總分字段進(jìn)入,選擇Pearson。輸出結(jié)果的最后一行或最后一列,每小題與總分之間的相關(guān)系數(shù)即為區(qū)分度。輸出整理結(jié)果如表5。
表5 各題的區(qū)分度表
對試題區(qū)分度的評價(jià)如表6所示。
表6 區(qū)分度評價(jià)標(biāo)準(zhǔn)表
(四)信度分析
信度是衡量一次考試的可靠性、穩(wěn)定性的統(tǒng)計(jì)指標(biāo)。信度高低反映了考試受隨機(jī)因素影響的大小,且與隨機(jī)因素影響呈反比關(guān)系。試卷信度的檢驗(yàn)一般采用的是同質(zhì)性信度,其衡量一般采用克倫巴赫 (Cronbach)α系數(shù),取值范圍為0~1。單擊【Analyze→Scale→Reliability Analysis】,在“Reliability Analysis”中選擇要進(jìn)入分析的項(xiàng)目T1~T18共18個(gè)變量,使之進(jìn)入Items框中,在Model中選擇Alpha模型,點(diǎn)擊Statistics按鈕,在彈出的對話框Descriptive for欄中勾選Item、Scale和Scale'if item deleted項(xiàng),輸出分析結(jié)果見表7和表8。
表7 信度統(tǒng)計(jì)值表
表8 刪除變量后項(xiàng)目統(tǒng)計(jì)值表
表8反映的是刪去某一題后考生的平均成績,此題與總分的相關(guān)系數(shù)及信度系數(shù)α的改變情況。
對信度的解釋如表9所示。
表9 信度系數(shù)解釋表
(五)效度分析
效度是指測試的有效程度,即試卷準(zhǔn)確地測量了欲測內(nèi)容的多少,換言之,在多大程度上實(shí)現(xiàn)了測試目的。效度的取值范圍在0~1之間,一般來說,效度系數(shù)在0.4~0.7之間,值越大效度越高。常用的效度檢驗(yàn)方法有效標(biāo)關(guān)聯(lián)效度法和構(gòu)想效度法。在此利用效標(biāo)關(guān)聯(lián)效度法進(jìn)行分析,因?yàn)槠綍r(shí)成績對于評價(jià)學(xué)生來說具有一定的正確性和有效性,所以把學(xué)生的平時(shí)成績作為效度分析的效標(biāo)。由于平時(shí)成績已在數(shù)據(jù)表格中,故單擊 【Analyze→Correlate→Bivariate】,選擇字段sum和ps進(jìn)入Variable(s)中,點(diǎn)擊Pearson,最后輸出結(jié)果見表10。
表10 相關(guān)性分析
第一,由表1可見,本次測試的平均成績?yōu)?3.05分,最高分97分,最低分53分,偏度0.165和峰度-0.401都較小,趨近于0,成績服從正態(tài)分布,說明試卷命題基本合理,考試總體情況良好。標(biāo)準(zhǔn)方差為10.568,數(shù)值較高,說明數(shù)據(jù)變化較大,學(xué)生個(gè)體之間存在較大差異,主要影響因素是上課聽講、完成作業(yè)、課后鞏固、考前復(fù)習(xí)等。在教學(xué)中,教師應(yīng)注意這個(gè)問題,通過因材施教、分類指導(dǎo)等措施努力縮小學(xué)生之間差距。從圖1可知,處于80~100分?jǐn)?shù)段的人數(shù)是12人,60分以下的3人,峰值出現(xiàn)在70~75分?jǐn)?shù)段,說明大多數(shù)學(xué)生對知識掌握較好,但成績多集中在平均分附近,建議適當(dāng)加大一些試題的區(qū)分度,有利于激勵(lì)學(xué)生的學(xué)習(xí)積極性。
第二,在難度分析中,了解到除了T12、T18題難度較大,T14、T17題難度適中外,其余各題均偏易,特別是T3、T8、T13題,可以認(rèn)為過于簡單,需適當(dāng)增加難度,以便更好地反映學(xué)生掌握知識的情況。若需提高平均分,可以考慮將T12、T18題刪除。由表3可見,本次考試大多數(shù)題難度系數(shù)在0.7以上,總體來看還是一次容易的考試,比較適合像期末考試這類屬于目標(biāo)參照性的考試。
第三,從表5可見,T18題的區(qū)分度非常高,為0.786,說明學(xué)生成績在此題被顯著拉開,而該題的標(biāo)準(zhǔn)方差值在所有題目中是最大的,達(dá)到3.202,而其分值又是全卷中最高的,所以,在日后教學(xué)工作中,教師應(yīng)該針對該題和該題所含的知識點(diǎn)對學(xué)生多加訓(xùn)練和輔導(dǎo)。T2、T5、T6、T12題區(qū)分度較低,說明學(xué)生之間的差距沒有拉開,學(xué)生所掌握的知識范疇及對知識的理解程度和運(yùn)用能力難以得到充分體現(xiàn),因此,有必要加以調(diào)整、改進(jìn)。
第四,從表7可知,本次考試的信度為0.576。一般來說,學(xué)校教師自編考卷的信度應(yīng)在0.6以上,所以,本試卷信度一般。為提高試卷信度,可從適當(dāng)增加試題數(shù)量、保持所有試題的難度接近正態(tài)分布等方面改進(jìn)。從表8可見,T2題的質(zhì)量相對要差一些,與總分的相關(guān)程度較低,刪去這一題后的信度系數(shù)上升為0.593,運(yùn)用類似的方法可以觀測其他題刪去后信度的變化,這對改進(jìn)試題有指導(dǎo)意義。
第五,從表10可見,效度值為0.952,顯著相關(guān),說明平時(shí)成績好的學(xué)生此次考試成績也較好,平時(shí)成績差的學(xué)生此次考試成績亦較差,可見此次考試反映了學(xué)生的實(shí)際真實(shí)水平,符合效度要求。
[1]張文彤,閆潔.SPSS統(tǒng)計(jì)分析基礎(chǔ)教程[M].北京:高等教育出版社,2004.
[2]楊麗軍.高校教學(xué)水平評估中試卷質(zhì)量分析系統(tǒng)的研究與實(shí)現(xiàn)[J].微電子學(xué)與計(jì)算機(jī),2006,23(8):198-201.
[3]于水華,鄭任兒.淺談SPSS在教育信息處理中的應(yīng)用[J].電腦與電信,2006,(10):55-58.
(
:)
G712
A
1672-5727(2011)08-0169-02
紀(jì)宏偉(1977—),男,江蘇南通人,理學(xué)碩士,江蘇教育學(xué)院如皋分院講師,研究方向?yàn)閿?shù)學(xué)教育、泛函分析、信息技術(shù)等。本文責(zé)任編輯楊在良