尉 亮
(新疆大學(xué)國際文化交流學(xué)院,新疆 烏魯木齊 830046)
考試成績是評價學(xué)生學(xué)業(yè)水平和教師教學(xué)效果的重要指標之一,目前漢語國際教育專業(yè)相關(guān)的成績分析主要集中于對留學(xué)生HSK成績的分析,[1]或者是對《國際漢語教師證書》考試成績分析,[2]還鮮有對漢語國際教育本科專業(yè)相關(guān)課程的成績進行分析的研究。因此本文基于教育測量學(xué)、教育統(tǒng)計學(xué)的相關(guān)理論,利用SPSS20.0軟件對漢語國際教育專業(yè)的《漢語課堂教學(xué)設(shè)計》這門課程的期末考試成績進行分析與解釋,以期檢測教學(xué)成效,提升教學(xué)質(zhì)量,為本專業(yè)其他課程成績的分析提供借鑒和參考。
《漢語課堂教學(xué)設(shè)計》是漢語國際教育本科專業(yè)開設(shè)的一門專業(yè)核心課。課程結(jié)合對外漢語課堂教學(xué)的實例,系統(tǒng)講授了教學(xué)設(shè)計的相關(guān)理論、基本概念,并闡明了對外漢語課堂教學(xué)設(shè)計所要遵循的流程和方法。在傳統(tǒng)教學(xué)模式下教學(xué)過程存在教學(xué)方法單一,學(xué)生參與度不高等問題。為了改善這一狀況,課程于2020年9月采用“BOPPPS+SPOC”混合式教學(xué)模式進行教學(xué)改革,旨在完成“知識傳授”、“能力培養(yǎng)”、“價值塑造”的教學(xué)總體目標。課程期末考試成績便是評價教學(xué)目標是否達成的重要指標之一,而且基于各種測驗結(jié)果所進行的分析,能夠讓教師進一步診斷學(xué)生在認識結(jié)構(gòu)上的缺陷,從而為實施補救教學(xué)提供依據(jù),確保教學(xué)目標的落實。[3]因此,對本課程的成績分析實屬當務(wù)之急。
本研究擬解決兩個主要問題:(1)《漢語課堂教師設(shè)計》課程期末考試成績是否屬于正態(tài)分布?(2)《漢語課堂教師設(shè)計》課程期末考試試題質(zhì)量如何?
本文研究對象為漢國教17-1班35名學(xué)生的期末考試成績。因為疫情原因課程采取在愛課程的SPOC平臺進行線上考試。試卷共六道大題,27道小題,分別為單選題(10道)、多選題(10道)、分析題(3道)、案例題(2道)、論述題(1道)、教案設(shè)計題(1道)。
本文通過SPSS20.0中文版對收集的數(shù)據(jù)進程定量統(tǒng)計分析。具體研究過程是先將35名學(xué)生進行編號,然后依次在Excel表格中錄入每一道小題的得分,核算大題和總分成績,接著錄入每個編號對應(yīng)學(xué)生的平時成績,最后依據(jù)研究的問題通過SPSS軟件進行統(tǒng)計。
《漢語課堂教學(xué)設(shè)計》期末考試成績分析主要分兩個方面,一是通過統(tǒng)計學(xué)生分數(shù)的分布情況、最高分、最低分、平均分、標準差等指標來分析成績本身;二是通過分析試題的信度、效度、難度、區(qū)分度來衡量試卷質(zhì)量的優(yōu)劣。一份設(shè)計良好的試卷需要具有很好的信度、效度、區(qū)分度,難度適中。[4]
3.1.1 分數(shù)的分布
為了分析整個考試的情況,首先檢驗考試的分數(shù)是否呈正態(tài)分布,即得低分或高分的人數(shù)較少,大部分學(xué)生的成績介于兩者之間,整個考試分數(shù)形成中間高、兩邊低的鐘形。將數(shù)據(jù)輸入SPSS,繪制成績直方圖,如圖1所示:
圖1 學(xué)生成績直方圖
從圖1可得,多數(shù)考生的分數(shù)較高,成績分布出現(xiàn)負偏態(tài)。為了進一步進行描述,通過公式算出偏態(tài)值g1=-0.204;峰值g2=-0.443,兩者都小于0。雖然從理論上而言,最理想的偏態(tài)值和峰值都應(yīng)該為0。但一般來講,一個考試的偏態(tài)值和峰值如果能控制在±1之內(nèi),其分數(shù)分布可認為基本符合正態(tài)分布。[5]由此可見,本次考試成績分布基本正常。
3.1.2 成績的集中量數(shù)與離散量數(shù)分析
成績統(tǒng)計分析的基本描述性指標主要有學(xué)生總數(shù)、最高分、最低分、平均分等,相應(yīng)的描述性統(tǒng)計量主要包括最大值、最小值、均值、全距、標準差等。其中,均值是用來表示數(shù)據(jù)集中趨勢的統(tǒng)計量,標準差是描述數(shù)據(jù)變異性特征最常用的統(tǒng)計指標。用SPSS統(tǒng)計各類量數(shù),具體結(jié)果見表1:
表1 期末成績基本描述性統(tǒng)計
由表1可知,此次期末考試最高分是88分,最低分是60分。平均分為75.51,說明成績的典型水平是76分左右。標準差是7.031,“標準差是表示一組數(shù)據(jù)離散程度的最好指標,其值越大,說明次數(shù)分布的離散程度越大;其值越小,說明次數(shù)分布的數(shù)據(jù)比較集中,離散程度越小”。[6]為了較為直觀地闡明此次成績的分布情況,筆者將與與傳統(tǒng)教學(xué)模式下漢國教15-1班學(xué)生的成績(平均值為75,標準差為8.14)進行比較發(fā)現(xiàn),二者的平均分基本相同,但本次期末考試的標準差卻更低,說明學(xué)生成績之間的差異更小,成績較為集中,也側(cè)面印證了混合式教學(xué)改革小有成效。
3.2.1 信度分析
信度指的是測量結(jié)果的穩(wěn)定性或可靠的程度,亦即測量的結(jié)果是否真實、客觀地反映了考生的實際水平。[7]衡量信度的重要指標主要有重測信度、復(fù)本信度。一般來說,克隆巴赫阿爾法系數(shù)(Cronbach,Alpha)是檢驗工具信度最重要的指標。[8]運用spss軟件采用克隆巴赫α系數(shù)計算得出本次試卷的信度是0.664。測驗的信度一般在0和1之間取值,數(shù)值越接近1,信度就越高。根據(jù)學(xué)者王孝玲提供的一般性的參考標準,從測驗的性質(zhì)、內(nèi)容來說,教師自編學(xué)習(xí)成績測驗的信度系數(shù)應(yīng)在0.60以上。[9]可見,本次試卷信度較高,測試結(jié)果具有一定的可靠性。
3.2.2 效度分析
效度是指測量結(jié)果的準確性和有效性的程度,亦即測量是否達到了預(yù)期的目的。[10]《教育與心理測驗標準》將測驗的效度分為效標關(guān)聯(lián)效度、內(nèi)容效度和結(jié)構(gòu)效度這三類??紤]到內(nèi)容效度和結(jié)構(gòu)效度具有自身的局限性和一定的適用性,筆者采用效標關(guān)聯(lián)效度來衡量試卷的效度。所謂的效標關(guān)聯(lián)效度,是指測驗分數(shù)與一個外部效標的一致性程度,效標即效度標準。作為效度驗證的參考標準,效標的選擇應(yīng)具有相關(guān)性、有效性、可靠性、無污染、客觀性、實用性。[11]據(jù)此本文采用學(xué)生的平時成績作為效標?;旌鲜浇虒W(xué)模式下的平時成績包括學(xué)生在spoc平臺觀看視頻學(xué)習(xí),完成單元測驗,進行回帖討論,提交單元作業(yè);同時還包括線上課堂表現(xiàn)(成果匯報、前沿?zé)狳c討論、讀書報告、文獻閱讀交流)。這種注重過程性評價的平時成績效度較高,能較為真實地反映學(xué)生的水平,在期末考試成績公布前教師已進行了評定,從而確保了校標的無污染,而且簡單易行,便于操作。
確定效標關(guān)聯(lián)效度方法是直接求測驗分數(shù)(期末考試成績)與效標(平時成績)測量間的相關(guān)系數(shù)。通過SPSS運用積差相關(guān)(Pearson法)求得測驗的相關(guān)系數(shù)r=O.772。對r值進行顯著性檢驗,df=35-2=33,r0.01(33)=0.372,r=O.772>r0.01(33)=0.372,由此可知在0.01顯著性水平下平時成績和期末成績的相關(guān)程度非常顯著,說明本次期末試卷同時效度高,可以用于考查學(xué)生對教學(xué)設(shè)計相關(guān)知識的掌握程度。
3.2.3 難度分析
難度是指測驗試題或測量項目的難易程度,通常用符號P表示,在能力測驗領(lǐng)域被稱為項目的難度水平;在非能力測驗領(lǐng)域被稱為“通俗性”或“流行性”水平。[12]
用通過率法P=R/N(R表示答對題的人數(shù),N表示參加測驗的總?cè)藬?shù))算客觀題的難度,用平均值法P=/ω(表示某測試題的平均得分,ω表示該試題的滿分)算主觀題的難度。具體統(tǒng)計結(jié)果如表2所示:
表2 試卷各題及整體難度P值
P值介于0和1之間,P值越大,則表示測驗題越簡單;P值越小,則表示測驗題越難。P值的恰當與否主要取決于測驗的目的和性質(zhì)。一般而言,選拔性測試多數(shù)試題難度系數(shù)應(yīng)分布在0.3~0.7之間,整個試卷的平均難度為0.5左右為宜。期末考試為目標參照性考試,考試目的是衡量考生對特定知識和技能的掌握程度,難度可適當偏高,控制在06-0.9之間。[13]由表2進一步計算得出各題的平均難度分別為:單選題P=0.89,多選題P=0.8,分析題P=0.39,案例題P=0.76,論述題P=0.66,教案設(shè)計題P=0.75。由此可見,選擇題對學(xué)生而言最為容易,特別是Q8、Q12、Q16、Q20難度系數(shù)為1,說明所有學(xué)生都答對了;Q6、Q7難度系數(shù)接近1,說明絕大多數(shù)學(xué)生都答對了。究其原因,選擇題重在考察學(xué)生的基礎(chǔ)知識,在混合式教學(xué)模式下,每個基礎(chǔ)知識被錄制成十分鐘的短視頻上傳到線上平臺,學(xué)生可以根據(jù)自己的節(jié)奏反復(fù)觀看學(xué)習(xí),每節(jié)后面配有相應(yīng)測試題,因此學(xué)生掌握的情況較好。案例題和教案設(shè)計題對學(xué)生較為簡單,一方面是因為試題難度中等;另外一方面是在混合式教學(xué)模式下學(xué)生通過線上spoc平臺,對相關(guān)的案例進行了討論回帖,分析能力和批判性思維能力得到了鍛煉。平時的教學(xué)中學(xué)生閱讀、討論、分析了中高級優(yōu)秀教案集,并撰寫了數(shù)十篇教案,從而對教案設(shè)計也是駕輕就熟。論述題難度適中,分析題最難,按照布盧姆的教學(xué)目法分類,該題主要考察學(xué)生組織、歸納和綜合所學(xué)知識解決實際問題的能力和一定的創(chuàng)新能力,對學(xué)生的要求比較高,學(xué)生作答情況相比前幾題較差也實屬正常。
試卷的整體難度是0.71,大致屬于常模參照性測驗所要求的0.3~0.7這個區(qū)間,可見難度適中,考生得分基本趨于正態(tài)分布。
3.2.4 區(qū)分度分析
區(qū)分度是指測驗項目對不同考生實際學(xué)業(yè)水平的區(qū)分程度或鑒別能力,通常用符號D表示。[14]作為測驗是否有效的“指示器”,區(qū)分度的取值范圍為±1。采用皮爾遜(Pearson)相關(guān)分析法計算出本試卷區(qū)分度的結(jié)果如表3所示:
表3 試卷各題區(qū)分度D值
根據(jù)學(xué)者朱德全的觀點,當D值在0.4以上時,說明試題的區(qū)分度非常好;當D值為0.30~0.39,說明試題的區(qū)分度良好,若修改會更好;當D值為0.20~0.29,說明區(qū)分度尚可,通常還需要修改;D值在0.19以下時,說明區(qū)分度差,必須淘汰或加以修改。[15]本試卷各題的區(qū)分度均≥0.4,證明改卷的區(qū)分度非常高,能有效鑒別學(xué)生的實際水平。在本次期末考試中知識掌握較好的學(xué)生得到了高分,知識基礎(chǔ)薄弱的學(xué)生得分相對低一些。
用SPSS分析《漢語課堂教學(xué)設(shè)計》期末考試數(shù)據(jù)發(fā)現(xiàn):就成績分布而言,此次考試的最高分是88分,最低分是60分,分數(shù)極差為28分,平均分為75.51,標準差為7.031,整體成績基本趨于正態(tài)分布。
就試卷質(zhì)量而言,試題的信度為0.662,雖然作為教師自編測試題達到了0.6的標準,但也只屬于美國學(xué)者德維利斯(DeVellis)認為的最小可接受值(0.65~0.70),距離相當好的標準(0.70~0.80)還有一些差距,應(yīng)重新修改不達標的試題;試題的效標關(guān)聯(lián)效度是0.772,可見平時成績與期末成績關(guān)聯(lián)系數(shù)較高,平時成績高的學(xué)生此次期末考試成績也高,反之則低,一定程度上說明測驗達到了預(yù)期的目標;試題的平均難度為0,71,總體難度適中。但選擇題中的一些題偏易,對那些0.9≤D≤1題應(yīng)進行修改或刪減,使平均難度系數(shù)盡量保持在0.5左右;試卷各題的區(qū)分度較高,均在0.4以上,能考察出學(xué)生的真實水平。
總體而言,本次期末考試學(xué)生成績分布正常,學(xué)生之間差異較小。試題質(zhì)量較高,題量適中,符合大綱要求,知識覆蓋面較廣。試題區(qū)分度較高,測量出了學(xué)生的真實水平。試題整體難度適中,個別偏易試題需要修改刪減。試題信度符合標準,效度較高。通過如上的統(tǒng)計分析,將符合信度、效度、難度、區(qū)分度各項指標的試題分門別類地歸入試題庫,確保科學(xué)、規(guī)范、有效的測試卷形成的同時,也為漢語國際教育專業(yè)其他課程成績的分析、試卷庫的建立提供一定的思考和借鑒。