3～6 年級英語學習能力傾向測驗的編制

2020-12-21 03:16:04范曉玲李添韻

教育測量與評價 2020年11期

范曉玲伍慧李添韻

一、問題提出

學習能力傾向測驗主要用于評估個體獲得新知識或新技能的可能性，預測個體在將來可能獲得的學業(yè)成就或職業(yè)成就。[1]英語學習能力傾向是個體能否成功學習英語的一種特殊能力。[2][3]英語學習能力傾向測驗則是通過測量學生的基本英語學習能力，評估其英語學習能力各個層面、不同程度（強、中、弱）的分布，從而預測其未來在新學習情境中英語水平提高的可能性。英語學習能力傾向測驗可以為教師制定具有針對性、個性化、符合學生發(fā)展特征的輔導或干預方案提供依據(jù)，同時能幫助學生更清晰、更準確地了解自己的英語學習能力，從而更積極、主動地思考、應(yīng)用英語學習策略。

學習能力傾向測驗是目前國內(nèi)外廣泛應(yīng)用的能力測驗之一。西方國家在學習能力傾向測驗的編制、使用及后續(xù)研究上已成規(guī)模，并在其教育及相關(guān)領(lǐng)域產(chǎn)生了積極影響，推動了各自國家教育的發(fā)展、人才的培養(yǎng)與選拔。我國關(guān)于學習能力傾向測驗的研究主要集中在語文和數(shù)學學科領(lǐng)域，英語學科領(lǐng)域關(guān)注較少。隨著社會信息化、經(jīng)濟全球化、文化多樣化的深入發(fā)展，英語已廣泛用于國際政治、軍事、科技、醫(yī)療、文化、貿(mào)易等領(lǐng)域。不僅如此，很多基于二語習得理論的實證研究也指出，小學階段的英語學習在很大程度上影響著學生最終的英語水平。[4]然而，目前來看，國內(nèi)有關(guān)英語學習能力傾向測驗的研究存在幾點不足：一是在測量對象上，主要針對的是中學生、大學生、軍人等人群，對于處于學習敏感期和關(guān)鍵期的小學生則少有涉獵；二是在研究方法上，國內(nèi)主要是綜述性文獻或調(diào)查性測驗，缺乏標準化的實證研究；三是在測驗的理論依據(jù)上，已經(jīng)編制出來的測驗大多以經(jīng)典測量理論（CTT）為基礎(chǔ)，很少有測驗以結(jié)果更精確、受抽樣影響小的項目反應(yīng)理論（IRT）為指導。本研究以CTT和IRT 為基礎(chǔ)，編制3～6 年級英語學習能力傾向測驗，其目的是檢測學生個體的英語學習能力，為教師的教學和學生的學習咨詢、輔導、干預等，提供科學、有效的評估工具。

二、研究方法

1.項目編制

在已有文獻分析的基礎(chǔ)上，本研究根據(jù)Carroll 和Sapon[5]的外語學習能力傾向理論，構(gòu)建了小學生英語學習能力的4 個維度，即語言編碼能力（f1）、記憶聯(lián)結(jié)能力（f2）、語法敏感性（f3）和歸納語言能力（f4）。研究者采用借鑒和自編相結(jié)合的策略，編制了3～4 年級和5～6 年級各2 套試卷（A 卷和B 卷），共計4 套試卷，每套試卷各50個項目。經(jīng)3～6 年級532 名學生預測結(jié)果的項目分析，根據(jù)項目難度和區(qū)分度標準對項目進行刪除和修改，最終形成3～4 年級、5～6 年級正式測驗各1 套，項目數(shù)分別為34 題和40 題，其中自編項目分別為33 題和39 題，自編率分別為97.06%和98.00%。正式測驗的結(jié)構(gòu)、內(nèi)容與項目分布如表1 所示。

表1 正式測驗的結(jié)構(gòu)、內(nèi)容與項目分布

2.實測對象

本研究采用方便抽樣法，在湖南省長沙市的5 所小學，以班級為單位進行團體施測，統(tǒng)一播放測驗的指導語和聽力材料，測驗時限30 分鐘。1965 名學生參與作答，排除胡亂作答、漏答超過7 題的問卷，有效問卷1898 份，有效率96.59%。其中，3～4 年級卷941 份，5～6 年級卷957 份。有效樣本的人口學統(tǒng)計如表2 所示。

表2 各年級抽樣分布

三、研究結(jié)果

1.項目分析

（1）基于CTT 的項目分析

如表3 所示，3～4 年級、5～6 年級卷的項目難度分別為［0.24，0.79］和［0.24，0.82］；3～4 年級卷的平均難度為0.53，各分測驗的平均難度分別為0.71，0.47，0.45 和0.44；5～6 年級卷的平均難度為0.60，各分測驗的平均難度分別為0.66，0.54，0.68 和0.59。3～4 年級、5～6 年級卷的項目區(qū)分度分別為［0.21，0.75］和［0.27，0.51］；3～4 年級卷的平均區(qū)分度為0.41，各分測驗的平均區(qū)分度分別為0.57，0.40，0.30 和0.27；5～6 年級卷的平均區(qū)分度為0.40，各分測驗的平均區(qū)分度分別為0.32，0.44，0.44 和0.40。

表3 基于CTT 的項目分析

（2）基于IRT 的項目分析

根據(jù)IRT 的相關(guān)理論，一個有效的測驗需要滿足以下3 個假設(shè)：一是單維性假設(shè)，即測驗對同一潛在特質(zhì)進行測量；二是獨立性假設(shè)，要求被試與測驗項目之間獨立，包括測驗項目不會影響被試作答、被試之間的作答不會產(chǎn)生交互影響；三是測驗未被加速假設(shè)，要求被試在規(guī)定的時間內(nèi)完成測驗。

本研究采用探索性因素分析，得出了3～4 年級、5～6 年級卷的第一特征值和第二特征值的比值分別為3.201 和2.725（見表4），同時從圖1 和圖2 的碎石圖也可以看出，兩個測驗的第一主成分顯著突出，第二主成分為拐點，滿足了單維性假設(shè)。[6]在施測過程中，主試和班主任教師共同監(jiān)考，在最大程度上排除了被試之間的干擾，滿足了獨立性假設(shè)。主試測驗記錄顯示，所有被試完成測驗項目的時間為20～26 分鐘，而測驗時限為30 分鐘，滿足了測驗未被加速假設(shè)。[7]因此，本測驗符合IRT 分析的前提條件。

表4 測驗單維性假設(shè)結(jié)果

圖1 3～4 年級卷碎石圖

圖2 5～6 年級卷碎石圖

表5 基于IRT 的項目分析

本研究采用IRT 的三參數(shù)模型對測驗的難度、區(qū)分度、猜測度進行分析，結(jié)果如表5 所示：3～4 年級、5～6 年級卷的項目難度參數(shù)分別為［-1.803，2.490］和［-1.787，1.517］，區(qū)分度參數(shù)分別為［0.320，4.879］和［0.370，1.316］，猜測參數(shù)分別為［0.031，0.404］和［0.049，0.374］。3～4 年級、5～6 年級卷各項目的平均難度均為-0.07，平均區(qū)分度分別為1.14 和0.78，平均猜測度分別為0.19和0.20。

兩套試卷的被試能力分布如圖3 和圖4 所示，結(jié)果表明，被試的能力水平平均趨近于0，標準差趨近于1，抽取的樣本質(zhì)量較好，接近正態(tài)分布。

圖3 3～4 年級卷被試能力分布

圖4 5～6 年級卷被試能力分布

2.測驗質(zhì)量分析

（1）測驗的信度

首先，基于IRT 的測驗信息函數(shù)如圖5、圖6和表6 所示：3～4 年級卷和5～6 年級卷的最大信息函數(shù)分別為27 和10，其對應(yīng)的能力值分別為-0.20 和0.60。

圖5 3～4 年級卷的總體信息函數(shù)

圖6 5～6 年級卷的總體信息函數(shù)

其次，基于內(nèi)部一致性信度的分析結(jié)果如表6所示：3～4 年級卷和5～6 年級卷的Cronbach’s α系數(shù)分別為0.84 和0.87；分半信度分別為0.69和0.76。

表6 測驗的信度

（2）測驗的效度

本研究采用相關(guān)法分析測驗總體與各分測驗間的相關(guān)情況。如表7 所示：3～4 年級卷各分測驗與測驗總體的相關(guān)系數(shù)為0.58～0.84，5～6 年級卷各分測驗與測驗總體的相關(guān)系數(shù)為0.69～0.83；3～4 年級卷各分測驗之間的相關(guān)系數(shù)為0.28～0.52，5～6 年級卷各分測驗之間的相關(guān)系數(shù)為0.33～0.55。

表7 各分測驗與測驗總體的相關(guān)系數(shù)

表8 測驗因子模型擬合指數(shù)

本研究采用驗證性因素分析，探討兩個學段英語學習能力傾向測驗的結(jié)構(gòu)。如表8 所示：一、二階模型中，3～4 年級、5～6 年級卷的RMSEA 均小于0.05，模型擬合指數(shù)CFI 和TLI 均大于0.90。圖7 和圖8 為兩個測驗的二階模型擬合圖。

圖7 3～4 年級卷模型擬合圖（二階）

圖8 5～6 年級卷模型擬合圖（二階）

本研究以取樣學生的英語期末考試成績?yōu)樾?，進行預測效度的分析。在正式施測結(jié)束的兩個月后，研究者收集了參與測試的某一所學校295 名學生的英語期末考試成績，結(jié)果如表9 所示。取樣學生的3～4 年級、5～6 年級卷總分與其英語期末考試成績的相關(guān)分別為0.45 和0.31，且在0.01 水平相關(guān)顯著。

表9 測驗總分與英語統(tǒng)考成績的相關(guān)

四、討論

1.測驗的結(jié)構(gòu)

本研究編制的3～6 年級英語學習能力傾向測驗主要用于測量小學生學習英語的最初準備狀態(tài)和能力，評估其英語學習的潛力，同時為教師在教學過程中以發(fā)展的眼光多維度地評價學生、調(diào)整教學方式等提供依據(jù)。

通過查閱國內(nèi)外有關(guān)學習能力傾向測驗，筆者發(fā)現(xiàn)大多數(shù)能力傾向測驗是以流體智力和能力的層級結(jié)構(gòu)為理論基礎(chǔ)的，大多數(shù)言語學習能力傾向測驗包括了語言的編碼、理解和應(yīng)用能力。[8][9]鑒于目前國內(nèi)中小學校普遍重視學生思維品質(zhì)的培養(yǎng)，本研究基于文獻查閱的結(jié)果，初步構(gòu)建了測驗結(jié)構(gòu)，確定了項目形式和項目內(nèi)容，之后再與7 名教齡在5 年以上的小學英語骨干教師和1 名心理學測量專家進行訪談，最終形成了3～6 年級英語學習能力傾向測驗的4 個維度：語音編碼能力、記憶聯(lián)結(jié)能力、語法敏感性和歸納語言能力。測驗內(nèi)容包括尋找音韻、數(shù)字學習、匹配詞語和歸納詞組?？紤]到測驗為團體施測的紙筆測驗，研究者將尋找音韻、數(shù)字學習連同指導語一起錄制。

從測量結(jié)果來看，兩個測驗與其分測驗的相關(guān)均較高，各個分測驗之間的相關(guān)達到中度相關(guān)，且分測驗與測驗總體的相關(guān)明顯高于各分測驗之間的相關(guān)，一方面說明各分測驗均對測驗總體做出了貢獻，另一方面說明各個分測驗之間又具有相對的獨立性。測驗的一階驗證性因素分析和二階驗證性因素分析結(jié)果表明：RMSEA＜0.05，CFI 和TLI 均＞0.90，結(jié)構(gòu)模型擬合優(yōu)良[10]，說明兩個測驗的理論結(jié)構(gòu)理想。

2.測驗項目的質(zhì)量分析

根據(jù)CTT 理論，難度為0.50 左右的項目具有最大的鑒別力，但實際編制測驗時，卻不能使測驗的所有項目難度都在0.50 左右，因為這樣做會使整個測驗的區(qū)分能力降低，測驗所能提供的信息量減少。[11]因此，在編制測驗時，研究者應(yīng)盡量使項目難度分布廣泛，最好為常態(tài)分布。本研究中，基于CTT 的3～4 年級、5～6 年級卷的項目難度分布為［0.24，0.79］和［0.24，0.82］，符合最高行為測驗難度在［0.20，0.80］之間[12]的分布要求，且難度在［0.30，0.70］之間的項目分別占項目總數(shù)的70%和58%，平均難度分別為0.53 和0.60，符合最高行為測驗的項目難度為0.50 左右[13]的要求。關(guān)于測驗項目的區(qū)分度，美國測量學家Aken認為項目的鑒別指數(shù)應(yīng)在0.30 以上，但對于偏離平均難度較大的項目，其鑒別指數(shù)稍低于0.30 也可以接受。[14]本研究中，3～4 年級、5～6 年級卷的項目區(qū)分度分別為［0.21，0.75］和［0.27，0.51］，測驗的區(qū)分度分別為0.41 和0.40，達到區(qū)分度可以接受水平[14]以上。

根據(jù)IRT 理論，項目三參數(shù)模型的可接受范圍是難度為［-3.00，3.00］、區(qū)分度大于0.70、猜測度小于0.30。[15]本研究中，基于IRT 的3～4 年級、5～6 年級卷的項目難度參數(shù)分別為［-1.803，2.490］和［-1.787，1.517］，平均難度均為-0.07；區(qū)分度參數(shù)分別為［0.320，4.879］和［0.370，1.316］，大于0.70 的項目分別占67.60%和65.00%，平均區(qū)分度分別為1.14 和0.78，且猜測參數(shù)分別為［0.031，0.404］和［0.049，0.374］，猜測度大于0.30的項目數(shù)分別是4 個（11.80%）和3 個（7.50%），平均猜測系數(shù)分別為0.19 和0.20，基本滿足難度、區(qū)分度和猜測度的可接受水平。

3.測驗的質(zhì)量分析

本研究基于CTT 的3～4 年級、5～6 年級卷的Cronbach’s α 系數(shù)分別為0.84 和0.87，分半信度分別為0.69 和0.76，與同類測驗[16][17]相當，且達到良好信度[18]的標準。IRT 通常以測驗的信息函數(shù)作為信度指標，通過衡量標準誤、測驗信息量來檢驗信度的高低。[19]漆書青認為，具有良好信度的測驗，其標準誤應(yīng)小于或等于0.20，即測驗的總信息量要大于25。[20]測驗信息函數(shù)受項目數(shù)量、項目質(zhì)量和被試能力水平的影響。本研究3～4年級卷的測驗信息函數(shù)為27，5～6 年級卷的測驗信息函數(shù)10，說明有些項目仍需修改?？赡艿脑蛴袃蓚€。一是個別分測驗項目較少?？紤]到學生的注意力、耐心、課時等因素，部分題型題量較少，再經(jīng)過預測篩選，項目數(shù)就更少了，如語法敏感性和歸納語言能力分測驗項目只保留了6～8個，未來的測驗修訂可以適量增加題量。二是項目的評分等級較少，如部分項目只有3 個選項，致使猜測系數(shù)較高。有研究指出，測驗信息函數(shù)受項目的評分等級數(shù)影響，評分等級越少，信息損失越大，總體信息函數(shù)越小。[21]未來的測驗修訂可以考慮通過增加選項來降低猜測系數(shù)，進而提高總體信息函數(shù)。

結(jié)構(gòu)效度方面，各分測驗之間以及各分測驗與總分的相關(guān)均較高且相關(guān)顯著，說明測驗的內(nèi)部一致性較好。驗證性因素分析結(jié)果表明，模型擬合成立，測驗結(jié)構(gòu)合理。預測效度方面，本研究收集了正式施測兩個月后部分被試的英語期末考試成績來考驗預測效度。從考驗的結(jié)果來看，3～4 年級、5～6 年級卷的量表總分與英語期末考試成績的相關(guān)均顯著，相關(guān)系數(shù)分別為0.45 和0.31，與同類研究結(jié)果[22]一致。

綜上所述，本研究編制的3～6 年級英語學習能力傾向測驗的項目質(zhì)量和測驗質(zhì)量均符合測量學的基本要求，可以有效評估學生的英語學習能力現(xiàn)狀，其評估結(jié)果可以為英語教育教學的質(zhì)量評估以及英語學習的咨詢、輔導和干預提供參考。