摘 要:Rasch模型作為一種概率模型,可以有效地對(duì)項(xiàng)目的難度和學(xué)生個(gè)體的水平進(jìn)行估算。根據(jù)原始數(shù)據(jù)建立線性測(cè)量結(jié)構(gòu)可以幫助我們發(fā)現(xiàn)項(xiàng)目間、學(xué)生能力間、項(xiàng)目和學(xué)生能力之間的關(guān)系。本文以貴州師范大學(xué)國(guó)際教育學(xué)院2014級(jí)HND項(xiàng)目學(xué)生為例,運(yùn)用Rasch模型軟件WINSTEPS進(jìn)行了分析,發(fā)現(xiàn)測(cè)試基本符合測(cè)量目的,個(gè)別項(xiàng)目雖然測(cè)量指標(biāo)超出或沒有達(dá)到理想的取值范圍,但其設(shè)置有積極意義,應(yīng)予以保留。
關(guān)鍵詞:Rasch模型 大學(xué)英語(yǔ)水平測(cè)試 HND學(xué)生
中圖分類號(hào):G642 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-1578(2015)09-0039-02
1 引言
隨著我國(guó)經(jīng)濟(jì)的發(fā)展,社會(huì)和企業(yè)對(duì)人才的要求也相應(yīng)提高。理論基礎(chǔ)扎實(shí)、實(shí)踐能力過(guò)硬的人才在激烈的職業(yè)市場(chǎng)競(jìng)爭(zhēng)中備受歡迎。在此背景下,中國(guó)留學(xué)服務(wù)中心與蘇格蘭學(xué)歷管理委員會(huì)合作,把HND(Higher National Diploma,英國(guó)高等教育文憑)項(xiàng)目引入中國(guó)。該項(xiàng)目因其課程質(zhì)量高,教學(xué)理念先進(jìn),管理體系嚴(yán)格,學(xué)術(shù)能力和職業(yè)發(fā)展并重,得到了世界上110多個(gè)國(guó)家的認(rèn)可。由于該項(xiàng)目是中外合作辦學(xué),為學(xué)生將來(lái)進(jìn)入國(guó)外大學(xué)留學(xué)深造做準(zhǔn)備,因此它對(duì)學(xué)生們的英語(yǔ)水平提出了較高的要求。而英語(yǔ)水平測(cè)試(Proficiency Tests)作為了解學(xué)生英語(yǔ)水平的重要形式,為進(jìn)一步的教學(xué)計(jì)劃提供了參考,它對(duì)于英語(yǔ)考試研究也有著重要的意義。因此,如何對(duì)英語(yǔ)水平測(cè)試質(zhì)量進(jìn)行準(zhǔn)確、全面的分析就顯得尤為重要。
Rasch模型是丹麥數(shù)學(xué)家喬治·拉什(George Rasch)提出的一種數(shù)學(xué)概率模型,它可以同時(shí)估計(jì)測(cè)試的項(xiàng)目難度和學(xué)生個(gè)體的能力水平。正確運(yùn)用Rasch模型對(duì)學(xué)生進(jìn)行評(píng)估,可以更深入地幫助教師理解學(xué)生的英語(yǔ)水平,為下一步的教學(xué)提供有力的參考。Rasch模型可以根據(jù)學(xué)生水平測(cè)試所獲得的原始數(shù)據(jù)來(lái)評(píng)估項(xiàng)目的難度和學(xué)生的個(gè)人能力水平,建立起項(xiàng)目難度和學(xué)生個(gè)人能力水平的關(guān)系,并把它們放在同一個(gè)等距水平的量尺上進(jìn)行對(duì)比,使量尺上的單位距離具有同等的意義和價(jià)值。與此同時(shí),Rasch還可以對(duì)水平測(cè)試項(xiàng)目的難度分布,項(xiàng)目得分和測(cè)試總分之間的關(guān)系,以及測(cè)量目標(biāo)進(jìn)行準(zhǔn)確的分析,這些為分析測(cè)試質(zhì)量提供了一個(gè)全新的視角。
近年來(lái),許多專家學(xué)者運(yùn)用Rasch模型對(duì)不同的主題進(jìn)行了深入的分析。趙南、董燕萍(2013)利用多面Rasch模型對(duì)交傳測(cè)試進(jìn)行了檢驗(yàn),指出分項(xiàng)評(píng)分標(biāo)準(zhǔn)能夠顯著地區(qū)分被試的口譯水平。劉紅云等(2010)使用多面Rasch模型,對(duì)初二學(xué)生語(yǔ)文學(xué)績(jī)測(cè)試評(píng)分員標(biāo)準(zhǔn)進(jìn)行了研究,發(fā)現(xiàn)大部分評(píng)分員內(nèi)部一致性和外部一致性良好。劉建達(dá)、楊滿珍(2010)對(duì)寫作測(cè)試中誤差來(lái)源,評(píng)卷質(zhì)量,評(píng)卷人信度進(jìn)行了多面Rasch模型分析。彭康洲,鄒申(2012)用Rasch模型和驗(yàn)證性因子分析分析了詞匯和語(yǔ)法項(xiàng)目作答反應(yīng)對(duì)構(gòu)念效度的影響,發(fā)現(xiàn)詞匯和語(yǔ)法測(cè)試屬于彼此相關(guān)但又相互獨(dú)立的兩個(gè)構(gòu)念測(cè)試。
2 研究方法
2.1研究對(duì)象
貴州師范大學(xué)國(guó)際教育學(xué)院2014級(jí)HND項(xiàng)目大一學(xué)生。
2.2 數(shù)據(jù)來(lái)源
貴州師范大學(xué)國(guó)際教育學(xué)院2014級(jí)HND項(xiàng)目大一學(xué)生英語(yǔ)測(cè)試成績(jī)。數(shù)據(jù)總量為124,剔除無(wú)效數(shù)據(jù)1個(gè),實(shí)得有效數(shù)據(jù)123個(gè)。
2.3 數(shù)據(jù)處理
首先使用統(tǒng)計(jì)軟件SPSS 15.0預(yù)處理所得數(shù)據(jù),之后用Rasch模型分析軟件WINSTEPS 3.74進(jìn)行模型分析。
3 結(jié)果與分析
3.1樣本校學(xué)生成績(jī)描述統(tǒng)計(jì)
圖1是該校學(xué)生的成績(jī)分布圖。通過(guò)對(duì)圖1的分析不難發(fā)現(xiàn)此次考試學(xué)生對(duì)知識(shí)的掌握程度一般偏上,成績(jī)呈正偏態(tài)分布(=.20),少部分學(xué)生成績(jī)位于均值以上。
3.2 樣本校學(xué)生成績(jī)Rasch分析結(jié)果
圖2中,縱軸左邊是學(xué)生能力分布,縱軸右邊是項(xiàng)目的難度分布。從上到下,學(xué)生的個(gè)人能力水平不斷提高;相應(yīng)地,項(xiàng)目難度也隨之增大。學(xué)生與學(xué)生之間的距離越遠(yuǎn),表示他們的能力水平相差越大;同理,項(xiàng)目間的距離越遠(yuǎn)則表示其難度水平相差也越大。圖2中,測(cè)試項(xiàng)目和學(xué)生能力都幾乎呈現(xiàn)出正態(tài)分布。其中,樣本校學(xué)生能力水平寬度占了約5.1個(gè)logit,而測(cè)試項(xiàng)目的難度水平寬度占了約4.6個(gè)logit,說(shuō)明學(xué)生能力水平略高于測(cè)試項(xiàng)目的難度水平。另外,改圖還體現(xiàn)出該次測(cè)試中有許多項(xiàng)目的難度水平比較接近。
表1是樣本校Rasch模型項(xiàng)目信息(部分)。在對(duì)項(xiàng)目難度和學(xué)生個(gè)人能力水平進(jìn)行評(píng)估之后,Rasch模型繼續(xù)估計(jì)學(xué)生在每一個(gè)項(xiàng)目上答對(duì)的概率,并與觀察分?jǐn)?shù)進(jìn)行對(duì)比,得到兩者之間的差異,并用之來(lái)估計(jì)原始數(shù)據(jù)與理論模型的擬合程度。Infit MNSQ和Outfit MNSQ是Rasch模型研究通常報(bào)告的兩個(gè)擬合度指標(biāo)。其中,Infit MNSQ是加權(quán)后殘差的均方,Outfit MNSQ為標(biāo)準(zhǔn)殘差的均方。如果Infit MNSQ和Outfit MNSQ的值為1.0,則表示數(shù)據(jù)和模型完全擬合;取值范圍在0.5~1.0之間表示數(shù)據(jù)與模型擬合良好;如果Infit MNSQ和Outfit MNSQ值大于2.0,就可以說(shuō)明學(xué)生回答項(xiàng)目的方式和項(xiàng)目的設(shè)定方式出入較大;小于0.5則說(shuō)明項(xiàng)目未能準(zhǔn)確區(qū)分學(xué)生間的能力水平差異或?qū)W生間答題差異較小。Rasch S.E.為Rasch模型的標(biāo)準(zhǔn)誤,說(shuō)明測(cè)試在考察學(xué)生能力水平時(shí)誤差的大小。Correlation是相關(guān)系數(shù),表示項(xiàng)目和測(cè)量目的之間的擬合程度;較高的相關(guān)系數(shù)可以說(shuō)明項(xiàng)目與測(cè)量目的擬合良好,能夠體現(xiàn)測(cè)試要考察的目標(biāo)。
表1表明,全體項(xiàng)目的參數(shù)大體都在可接受范圍內(nèi),表示數(shù)據(jù)與模型擬合良好。此外,除項(xiàng)目15之外,全部項(xiàng)目都呈正相關(guān)。其中,第7、15、39的相關(guān)系數(shù)分別為0.04,-0.03和0.04,表明在實(shí)際測(cè)試中學(xué)生正確作答改項(xiàng)目與其能力水平關(guān)系不大。15題甚至出現(xiàn)了負(fù)相關(guān),說(shuō)明一些能力水平比較高的學(xué)生在此項(xiàng)目上的正確率甚至沒有一些能力水平低的學(xué)生猜測(cè)得出的結(jié)論準(zhǔn)確。15題原項(xiàng)目為:A: Are you really sure that you are not going to come to my apartment for a drink with our friends? B: _____, if you truly insist. 選項(xiàng)為:A. All right then. B. It depends. C. I dont care. D. Not at all. 通過(guò)分析,我們可以知道,該題正確選項(xiàng)為A。成績(jī)前十位的學(xué)生中竟然有七位在該項(xiàng)目上做錯(cuò),說(shuō)明此題有一定難度。其中,在全部學(xué)生中,B選項(xiàng)的選擇率高達(dá)34.96%,可能是學(xué)生沒有正確理解“It depends.”的意義,誤以為“It depends.”意為“定下來(lái)了”之意。經(jīng)試后訪談得知,學(xué)生中流傳著“如果不會(huì),就蒙C”的“訣竅”,這在一定程度上也造成了該題相關(guān)系數(shù)偏低且呈負(fù)相關(guān),Infit和Outfit MNSQ值超出正常范圍的結(jié)果。再以項(xiàng)目7為例,它的Infit MNSQ值為1.18,Outfit MNSQ值為1.64,兩項(xiàng)指標(biāo)均在1.0之上。該題原題為We ____ very early the next morning, so we got packed the day before. 選項(xiàng)為:A. were leaving; B. have left; C. had left; D. leave。本題考查過(guò)去將來(lái)體的用法,但有54.47%的學(xué)生錯(cuò)誤地選擇了C項(xiàng)。這說(shuō)明許多能力水平較高的學(xué)生反而做錯(cuò)了該項(xiàng)目。因此,該項(xiàng)目在區(qū)分學(xué)生能力水平時(shí)的誤差較大,但該項(xiàng)目設(shè)計(jì)得比較巧妙,通過(guò)“從句或分句為過(guò)去時(shí),主句往往選擇過(guò)去完成體”這一看似正確的形式,其實(shí)巧妙地考察了學(xué)生對(duì)于過(guò)去將來(lái)體的掌握情況。因此,雖然該題的相關(guān)系數(shù)較低,Infit和Outfit MNSQ值超出了可接受范圍,該題也應(yīng)該保留。它對(duì)于學(xué)生全面、細(xì)致地學(xué)習(xí)時(shí)態(tài)知識(shí)及解題具有積極的反撥作用。根據(jù)Rasch模型分析結(jié)果,可以推斷測(cè)試是否有效考察了學(xué)生能力、項(xiàng)目難度同學(xué)生個(gè)人能力之間的差異大小,由此調(diào)整項(xiàng)目?jī)?nèi)容或用其它合格項(xiàng)目來(lái)替代,以此提高我們測(cè)試的信度和效度,但對(duì)于一些有積極意義的項(xiàng)目,即使一些測(cè)量指標(biāo)超出或低于可接受的范圍也應(yīng)予以保留。
圖3中,每個(gè)氣泡代表一個(gè)項(xiàng)目,氣泡的大小與Rasch標(biāo)準(zhǔn)誤大小成正比,而氣泡的左右位置則表示每一個(gè)項(xiàng)目Outfit MNSQ值的大小。在理想的情況下,每一個(gè)氣泡都應(yīng)該趨近圖的中軸位置,并且不應(yīng)該發(fā)生重疊。從圖中我們可以得知,幾乎所有的氣泡都位于[0.5,1.5]這個(gè)取值范圍,表明原始數(shù)據(jù)與理論模型擬合良好,項(xiàng)目基本達(dá)到了測(cè)試目的。圖3中部分氣泡重合,表明測(cè)試項(xiàng)目難度水平比較接近或測(cè)試內(nèi)容區(qū)別不大。21號(hào)項(xiàng)目的Outfit MNSQ值接近于1.5,因此有必要對(duì)該項(xiàng)目進(jìn)行進(jìn)一步的探討。從圖3中還不難發(fā)現(xiàn),項(xiàng)目3、7、19、21、49對(duì)于估計(jì)學(xué)生能力水平時(shí)誤差較大。圖2顯示,3、19、49屬于比較容易的項(xiàng)目,7、21屬于比較難的項(xiàng)目。結(jié)合表1中關(guān)于樣本校Rasch模型的標(biāo)準(zhǔn)誤信息不難判斷,過(guò)于難和容易的項(xiàng)目在評(píng)估學(xué)生能力水平時(shí)都會(huì)出現(xiàn)比較大的誤差。
4 結(jié)論
本研究利用Rasch模型對(duì)樣本校的測(cè)試數(shù)據(jù)進(jìn)行了分析。結(jié)果表明,本次測(cè)試基本符合其測(cè)量目標(biāo),但其中有個(gè)別項(xiàng)目需進(jìn)一步考察,以提高測(cè)試的信度和效度;而個(gè)別項(xiàng)目雖然測(cè)量指標(biāo)超出或沒有達(dá)到理想的取值范圍,但其設(shè)置對(duì)于培養(yǎng)學(xué)生正確、細(xì)心區(qū)別相近考點(diǎn)、形同義不同等知識(shí)點(diǎn)有積極意義,因此應(yīng)予以保留。Rasch模型能夠?qū)y(cè)試項(xiàng)目的難度和學(xué)生個(gè)體水平進(jìn)行估計(jì),根據(jù)原始數(shù)據(jù)建立線性測(cè)量結(jié)構(gòu),從而幫助我們發(fā)現(xiàn)測(cè)試項(xiàng)目之間、學(xué)生能力之間、測(cè)試項(xiàng)目和學(xué)生能力之間的關(guān)系,精確地揭示水平測(cè)試對(duì)學(xué)生個(gè)人英語(yǔ)能力水平評(píng)估的準(zhǔn)確度,從而為我們完善項(xiàng)目提供合理依據(jù),從而使得測(cè)試有更強(qiáng)的針對(duì)性。英語(yǔ)水平測(cè)試作為考察學(xué)生英語(yǔ)水平的重要手段,為英語(yǔ)的教學(xué)和科研的科學(xué)化做出了應(yīng)有的貢獻(xiàn)。充分利用Rasch模型不僅可以更加有效地檢驗(yàn)和改善英語(yǔ)水平測(cè)試,而且可以為教育研究者和教師科學(xué)評(píng)價(jià)測(cè)試質(zhì)量以及學(xué)生的能力水平提供有力的指導(dǎo)。因此,我們有必要掌握Rasch模型,利用該模型對(duì)英語(yǔ)水平測(cè)試進(jìn)行全面的分析,對(duì)測(cè)試本身及其分?jǐn)?shù)作出公正、客觀的評(píng)價(jià)。
參考文獻(xiàn):
[1]趙南,董燕萍.基于多面Rasch模型的交替?zhèn)髯g測(cè)試效度驗(yàn)證[J].解放軍外國(guó)語(yǔ)學(xué)院學(xué)報(bào),2013,01.
[2]劉紅云等.學(xué)業(yè)水平測(cè)試中作文評(píng)分誤差的多面Rasch分析[J].心理科學(xué),2010,04.
[3]劉建達(dá),楊滿珍. 做事測(cè)試評(píng)卷中的質(zhì)量控制[J].外語(yǔ)電化教學(xué),2010,01.
[4]彭康洲,鄒申.TEM4語(yǔ)法詞匯項(xiàng)目的構(gòu)念效度研究——基于Rasch和CFA模型的分析[J].外語(yǔ)與外語(yǔ)教學(xué),2012,06.
作者簡(jiǎn)介:郭恒達(dá),男,山西太原人,貴州師范大學(xué)國(guó)際教育學(xué)院教師,碩士。