王佶旻
現(xiàn)代教育理念已經(jīng)從以教師為中心轉(zhuǎn)向以學(xué)生為中心,學(xué)習(xí)者應(yīng)該學(xué)什么,怎么去學(xué)成為語言學(xué)習(xí)的核心問題。在學(xué)習(xí)過程中,評(píng)價(jià)學(xué)習(xí)成就的方法主要有三種:測(cè)驗(yàn)、教師評(píng)價(jià)和學(xué)生自我評(píng)價(jià),Mats Oscarson(1989)認(rèn)為進(jìn)行自我評(píng)價(jià)對(duì)學(xué)習(xí)有益,學(xué)習(xí)者有意識(shí)地評(píng)價(jià)自己的交際效果是習(xí)得過程的重要組成部分,它可以幫助學(xué)習(xí)者提高學(xué)習(xí)意識(shí),明確學(xué)習(xí)目的,是評(píng)估領(lǐng)域的拓展。
語言能力自評(píng)量表是學(xué)生自我評(píng)估語言能力的評(píng)價(jià)工具,它可以幫助學(xué)習(xí)者對(duì)自己的語言水平做出判斷,從而對(duì)進(jìn)一步學(xué)習(xí)產(chǎn)生正面的影響。同時(shí)自評(píng)量表還能告訴學(xué)習(xí)者要提高語言能力應(yīng)該學(xué)會(huì)哪些語言知識(shí)和技能,這樣學(xué)習(xí)者就會(huì)有意識(shí)地去獲得這些能力。
語言能力自我評(píng)價(jià)量表具有很廣泛的實(shí)用價(jià)值,但自我評(píng)價(jià)量表必須建立在可靠性和有效性的基礎(chǔ)上,因而對(duì)所編制的量表進(jìn)行質(zhì)量檢驗(yàn)是十分必要的。
最早的語言能力量表是美國(guó)政府部門在1955年制定的FSI(Foreign Service Institute)量表,制定該量表的初衷是為了規(guī)范測(cè)驗(yàn)的操作和評(píng)分,因此它不是自評(píng)量表而是測(cè)驗(yàn)的評(píng)分標(biāo)準(zhǔn)。其后,歐洲、美國(guó)、加拿大、澳大利亞及其他地方出現(xiàn)了多個(gè)語言能力量表,如美國(guó)的ACTFL大綱、澳大利亞的ISLPR量表、加拿大的CLB量表以及歐洲的ALTE量表等。其中ACTFL量表和ALTE量表是最具影響力的語言能力量表。
ACTFL大綱是美國(guó)教育測(cè)驗(yàn)服務(wù)中心(Educational Testing Service,ETS)和美國(guó)外語教學(xué)委員會(huì)(American Council for the Teaching of Foreign Language,ACTFL)于20世紀(jì)80年代制定的語言能力量表。該量表把語言水平分為10個(gè)小級(jí)別,并對(duì)聽、說、讀、寫四項(xiàng)分技能做了等級(jí)描述。ACTFL大綱對(duì)學(xué)習(xí)者的評(píng)估側(cè)重于真實(shí)的能力,而不細(xì)究學(xué)習(xí)者在何時(shí)何地以何種方式學(xué)習(xí)語言。ACTFL大綱是一個(gè)對(duì)語言教學(xué)、學(xué)習(xí)、測(cè)試以及語言政策都產(chǎn)生了長(zhǎng)遠(yuǎn)影響的能力量表。它對(duì)能力等級(jí)的劃分、等級(jí)標(biāo)準(zhǔn)的界定和語言表現(xiàn)的描述都為以后的能力量表的制定提供了參考。
ALTE量表是歐洲語言測(cè)評(píng)中心協(xié)會(huì)(Association of Language Testers in Europe)制定的關(guān)于語言應(yīng)用能力的評(píng)估量表,是歐洲語言共同參考框架(CEF)的重要組成部分。ALTE量表是以語言使用者為中心的評(píng)估機(jī)制,因而也可以作為學(xué)習(xí)者的自我評(píng)估量表。該量表把語言水平分為六個(gè)等級(jí),并從聽、說、讀、寫四個(gè)方面對(duì)語言能力進(jìn)行了詳細(xì)的描述。描述采用“能做(can-do)”的形式,從社會(huì)生活與旅游、工作和學(xué)習(xí)三個(gè)方面對(duì)語言能力進(jìn)行描寫。
上述這些語言能力量表有三個(gè)主要特點(diǎn):一是以聽、說、讀、寫四項(xiàng)語言技能為綱來描寫語言能力;二是以特定的任務(wù)或語言使用者能夠做什么來描述具體的語言能力,也就是用行為表現(xiàn)來進(jìn)行評(píng)估;三是對(duì)能力等級(jí)的劃分都以初、中、高三個(gè)主要等級(jí)為基礎(chǔ)。
本研究的自評(píng)量表以中級(jí)漢語學(xué)習(xí)者為評(píng)估對(duì)象,分為聽、說、讀、寫四個(gè)分量表。在每一個(gè)分量表中,我們都從三個(gè)層面進(jìn)行描述,第一個(gè)層面是能力概說,以概括的語言對(duì)每一水平等級(jí)進(jìn)行描述,描述的主要任務(wù)是找出每一水平等級(jí)的區(qū)別性特征。例如聽力理解的能力概說為:“在日常生活、工作和學(xué)習(xí)中可以比較順利地實(shí)現(xiàn)和母語者的交流,能夠比較準(zhǔn)確地把握說話人的態(tài)度,觀點(diǎn),聽懂重要的問題、指示,可以在較短的時(shí)間內(nèi)參與到討論中,不僅能聽懂自己熟悉話題的大部分觀點(diǎn),在較陌生的話題上,也具備一定的跳躍障礙的能力,從而獲取需要的關(guān)鍵信息?!?/p>
第二個(gè)層面是“能做描述”,通過語言任務(wù)的形式對(duì)不同水平等級(jí)的學(xué)習(xí)者能夠做什么進(jìn)行詳細(xì)描述。能做描述也要從不同的子能力維度展開,以典型的作業(yè)任務(wù)為描述的依據(jù),而非隨意描述。比如在閱讀能力量表中,“能做描述”分為文本說明和閱讀過程兩個(gè)子維度。文本說明部分主要根據(jù)閱讀材料的體裁和篇章來對(duì)學(xué)習(xí)者進(jìn)行區(qū)分。例如“能讀懂會(huì)議議程?!遍喿x過程關(guān)注閱讀時(shí)所涉及的各種技能,包括總結(jié)和概括、尋找細(xì)節(jié)、查找段落關(guān)系、推論、與目的語文化背景的結(jié)合、閱讀技巧以及使用參考書和詞典的能力。例如“能將一篇文章里不同部分的信息,或者不同文章里的信息歸納匯總,以完成特定的交際任務(wù)。”
第三個(gè)層面是量化指標(biāo),主要從字、詞掌握數(shù)量,閱讀和聽力的速度等方面來區(qū)分不同水平的學(xué)習(xí)者。例如“能在30分鐘內(nèi)寫出300字以上的信或短文?!?/p>
中級(jí)漢語學(xué)習(xí)者語言能力自評(píng)量表采用李克特5級(jí)量表(Likert scale)來采集數(shù)據(jù),學(xué)生在完成量表時(shí)需要對(duì)每一條描述語和自己實(shí)際語言水平相符的程度進(jìn)行評(píng)價(jià),如果完全符合選擇5,完全不符合則選1。量表的結(jié)構(gòu)和題目數(shù)量如表1所示。
本研究的被試為報(bào)名參加2011年6月舉行的漢語水平考試HSK(初中等)考試的考生,共165名。被試在報(bào)名當(dāng)日完成量表調(diào)查,并于一周后參加HSK考試。因此被試完成量表時(shí)的語言水平與其參加HSK考試時(shí)的水平基本一致。被試的具體情況如表2所示。
題目的難度和區(qū)分度與量表的質(zhì)量密切相關(guān),難度適中,區(qū)分度良好的題目所組成的量表具有較好的測(cè)量精度。由于題目采用5級(jí)量表記分而非0/1記分,因此難度的求得采用公式P=所有被試該題得分的平均數(shù)/該題滿分分?jǐn)?shù)。區(qū)分度用被試在該題上的得分與其量表總分之間的相關(guān)來表示,同時(shí)檢驗(yàn)高分組和低分組的得分差異。根據(jù)測(cè)量學(xué)的一般做法,高分組指的是得分從高到低排列,前27%的人,低分組則是后27%的人,高分組和低分組的得分有顯著差異代表題目的區(qū)分度良好。我們按上述辦法計(jì)算了每個(gè)題目的難度、區(qū)分度以及高分組和低分組得分的平均數(shù)差異檢驗(yàn)(T檢驗(yàn))。結(jié)果表明,題目難度中等偏易,區(qū)分度良好,高分組和低分組得分的平均數(shù)差異顯著。具體情況如表3所示。
我們使用α系數(shù)檢驗(yàn)總量表以及各分量表的內(nèi)部一致性信度,結(jié)果如表4所示。
表4 總量表及各分量表的內(nèi)部一致性信度
從表4可以看出,中級(jí)漢語學(xué)習(xí)者自評(píng)量表以及聽力、閱讀、口語和書面分量表的內(nèi)部一致性信度(α系數(shù))都較高,說明量表的測(cè)量信度較好。
2.5.1 效標(biāo)的選取
信度和效度是測(cè)驗(yàn)的兩大質(zhì)量標(biāo)準(zhǔn),也是測(cè)驗(yàn)研究的重要問題,其中效度又是重中之重。正如Dieterish&Freeman(1979)所談到的,如果脫離了效度問題,那么包括信度在內(nèi)的一切有關(guān)測(cè)驗(yàn)標(biāo)準(zhǔn)或質(zhì)量的討論都會(huì)顯得毫無意義。Bachman(1990)也指出,在測(cè)驗(yàn)的開發(fā)、解釋及應(yīng)用中,需要考慮的最重要的問題就是效度。在建立效度的過程中,我們需要收集一種證據(jù),這種證據(jù)表明測(cè)驗(yàn)分?jǐn)?shù)和某個(gè)標(biāo)準(zhǔn)之間的關(guān)系,而我們相信這個(gè)標(biāo)準(zhǔn)同樣表現(xiàn)了所測(cè)的能力。使用這種方法建立的效度就是效標(biāo)關(guān)聯(lián)效度(criterion-related validity)。在效標(biāo)關(guān)聯(lián)效度的檢驗(yàn)過程中,最重要的步驟就是尋找合適的效標(biāo)。一個(gè)好的效標(biāo)必須具備以下幾個(gè)條件:
表2 被試的具體情況
(1)同質(zhì)性,即與研究對(duì)象的測(cè)量特質(zhì)相同。
(2)有效性,即能真正反映所要測(cè)量的特質(zhì)。
(3)可靠性,也就是要有較高的信度。
(4)客觀性,即沒有“效標(biāo)污染”。個(gè)人的效標(biāo)成績(jī)可能由于評(píng)定者知道其預(yù)測(cè)源分?jǐn)?shù)而受到影響,從而降低了客觀性,這稱為“效標(biāo)污染”。
(5)實(shí)用性,最佳的效標(biāo)測(cè)量應(yīng)該用法簡(jiǎn)單、省時(shí)、花費(fèi)少。(鄭日昌等,2001)
本研究采用被試參加的漢語水平考試(HSK)作為效標(biāo)。HSK是專門測(cè)試母語非漢語者的漢語水平的國(guó)家級(jí)標(biāo)準(zhǔn)化考試,具有二十幾年的歷史,在海內(nèi)外享有很高的學(xué)術(shù)和市場(chǎng)聲譽(yù),是一個(gè)比較可靠的效標(biāo)。本次HSK(初中等)考試的結(jié)構(gòu)、題型與信度系數(shù)如表5所示。
表5 HSK(初中等)考試的結(jié)構(gòu)、題型與信度系數(shù)
在效標(biāo)選取上,我們采取考察內(nèi)容近似的原則,以HSK總分作為總量表的效標(biāo),以HSK聽力理解測(cè)驗(yàn)的成績(jī)作為聽力理解分量表的效標(biāo),以HSK閱讀理解測(cè)驗(yàn)的成績(jī)作為閱讀理解分量表的效標(biāo)。由于HSK考試的綜合填空部分考查書面表達(dá)和漢字書寫能力,因而可以作為書面表達(dá)分量表的效標(biāo)。口語分量表的效標(biāo)也選用HSK聽力理解測(cè)驗(yàn)的成績(jī),這是因?yàn)槁牶驼f具有十分密切的關(guān)系,在沒有口語測(cè)驗(yàn)作為效標(biāo)的情況下,選擇聽力測(cè)驗(yàn)成績(jī)作為效標(biāo)也是可行的。
2.5.2 檢驗(yàn)結(jié)果
效標(biāo)關(guān)聯(lián)效度的檢驗(yàn)結(jié)果如表6所示。
表6 效標(biāo)關(guān)聯(lián)效度的檢驗(yàn)結(jié)果
從表6可以看到,總量表以及四個(gè)分量表與各自的效標(biāo)的相關(guān)都在0.05水平上顯著,相關(guān)系數(shù)在0.40~0.50,屬于中等程度的相關(guān)。
語言能力自評(píng)量表中對(duì)能力的劃分和界定主要依靠各種描述語來完成,因此描述語的質(zhì)量直接影響到量表的信、效度。描述語的產(chǎn)生有不同的方法,比如向?qū)<艺骷瘜?duì)學(xué)習(xí)者語言能力的評(píng)述語,根據(jù)確定的語言能力結(jié)構(gòu)及其參數(shù)體系來編寫描述語等。我們采用的方法是收集國(guó)內(nèi)外已有的語言能力量表和大綱,把其中的描述語挑選出來,然后根據(jù)確定的語言能力維度和參數(shù)體系將合適的描述語放進(jìn)去,最后再進(jìn)行描述語的修訂。
通過對(duì)每一條描述語的難度、區(qū)分度以及選項(xiàng)分布等題目質(zhì)量參數(shù)的評(píng)估,我們歸納了挑選和修訂描述語的幾條基本原則:(1)描述語的單維性,即,除總說部分外,每條描述語只描述一個(gè)參數(shù)或一項(xiàng)能力;(2)描述語的排他性,即任意一條描述語中都不含有其他描述語所描述的內(nèi)容,描述語之間不重復(fù);(3)描述語都采用正向描述的方式,不使用否定詞語;(4)盡量避免大量使用程度詞來修飾描述語,如比較準(zhǔn)確等;(5)描述語在表達(dá)上做到準(zhǔn)確、簡(jiǎn)潔。
評(píng)價(jià)量表的質(zhì)量主要從題目質(zhì)量、量表信度和效度三方面著手。從研究結(jié)果來看,中級(jí)漢語學(xué)習(xí)者語言能力自評(píng)量表質(zhì)量?jī)?yōu)良。題目平均難度為0.66,屬于中等偏易,說明問卷中的題目與被試的實(shí)際語言水平比較相符。在分量表中,聽力和口語的難度略低于閱讀和寫作。這可能是因?yàn)轭}目大多描寫課堂外實(shí)際運(yùn)用語言的場(chǎng)景,而學(xué)生在現(xiàn)實(shí)生活中運(yùn)用聽和說的機(jī)會(huì)多于讀和寫,因而他們對(duì)聽力和口語的場(chǎng)景熟悉程度高,傾向于給出較高的分?jǐn)?shù)。從題目的區(qū)分度來看,所有題目在高分組和低分組中都有很好的鑒別力,平均數(shù)差異顯著,題目與總分的相關(guān)較高,說明題目具有較好的區(qū)分度。量表的信度檢驗(yàn)表明題目的內(nèi)部一致性很好,信度較高。
從量表的效度檢驗(yàn)來看,總量表和效標(biāo)(HSK總分)之間的相關(guān)為0.46,這在自我評(píng)價(jià)的研究中是相對(duì)較高的。Bachman&Palmer(1989)的研究計(jì)算了自我評(píng)價(jià)和面試以及多項(xiàng)選擇題的相關(guān),分別為0.47和0.46,他們認(rèn)為這樣的相關(guān)已經(jīng)是相當(dāng)可觀了。其他一些研究,如Powers,D.,Roever,C.,Huff,K.L.,&Trapani,C.S.(2004)得到了0.3的相關(guān),而Anne-Mieke Janssen-van Dieten(1989)的研究?jī)H得到了0.19的相關(guān)。因而我們可以說本研究的語言能力自我評(píng)價(jià)量表的效標(biāo)關(guān)聯(lián)效度還是比較高的。從各個(gè)分量表來看,聽力、閱讀、口語和寫作分量表與它們各自的效標(biāo)之間的相關(guān)都在0.40以上,其中閱讀分量表的效標(biāo)關(guān)聯(lián)效度系數(shù)達(dá)到了0.50,說明各個(gè)分量表的效標(biāo)關(guān)聯(lián)效度都比較好。
在分析四個(gè)分量表與HSK各個(gè)分測(cè)驗(yàn)的相關(guān)關(guān)系的過程中,我們發(fā)現(xiàn)了一些有意思的現(xiàn)象。雖然四個(gè)分量表與它們各自的效標(biāo)之間的相關(guān)最高,但它們同時(shí)都和語法分測(cè)驗(yàn)具有較高的相關(guān)。這種現(xiàn)象暗示著語法知識(shí)在聽、說、讀、寫四項(xiàng)技能中都占有很重要的位置,反過來說,也暗示著語法不是一個(gè)需要獨(dú)立測(cè)量的子能力,而是作為一種語言使用的必備要素體現(xiàn)在聽、說、讀、寫各項(xiàng)語言技能中。這一點(diǎn)張凱(1997)和郭樹軍(1997)在研究HSK的構(gòu)想效度時(shí)已經(jīng)有所發(fā)現(xiàn)。
另外,我們還發(fā)現(xiàn),口語分量表與HSK各個(gè)分測(cè)驗(yàn)的相關(guān)是最低的,與自評(píng)量表中其他分量表的相關(guān)也是相對(duì)最低的。這一方面是因?yàn)槲覀冞x擇的效標(biāo)中沒有口語測(cè)驗(yàn),另一方面也說明口語能力是一種相對(duì)獨(dú)立的語言技能。這一現(xiàn)象在周聰(2010)以及原鑫(2011)的研究中曾經(jīng)得到了證實(shí)。這就提醒我們?cè)趯?duì)語言技能進(jìn)行評(píng)估時(shí)要采取分開評(píng)價(jià)的模式,特別是對(duì)于口語能力。
[1] 郭樹軍.漢語水平考試(HSK)項(xiàng)目?jī)?nèi)部結(jié)構(gòu)效度檢驗(yàn)[J].漢語水平測(cè)試研究.北京:北京語言大學(xué)出版社.1997.
[2] 高級(jí)水平漢語學(xué)習(xí)者聽說讀寫四項(xiàng)技能的關(guān)系研究[D].北京語言大學(xué)碩士論文.2011.
[3] 周聰.綜合式測(cè)試方法對(duì)初級(jí)水平漢語學(xué)習(xí)者的適用性研究[D].北京語言大學(xué)碩士論文.2010.
[4] 張凱.漢語水平考試結(jié)構(gòu)效度初探.見:漢語水平測(cè)試研究[M].北京:北京語言大學(xué)出版社.1997.
[5] 鄭日昌,蔡永紅,周益群.心理測(cè)量學(xué)[M].北京:人民教育出版社.2001.
[6] Bachman,L.F.,Fundamental Considerations in Language Testing.Oxford University Press.1990.
[7] Bachman,L.F.&Palmer,A.S.,The Construct Validity of Self-rating of Communicative Language Ability.Language Testing.1989,V6 N1:14-29.
[8] Anne-Mieke Janssen-van Dieten.The Development of a test of Dutch as a Second Language:the validity of self-assessment by inexperienced subjects.Language Testing.1989,V6 N1:30-47.
[9] Dieterish&Freeman.A Guide to English Proficiency Testing in School.Center for Applied Linguistics.1979.
[10] Mats Oscarson.Self-assessment of Language Proficiency:rationale and applications.Language Testing.1989,V6 N1:1-13.
[11] Powers,D.,Roever,C.,Huff,K.L.,&Trapani,C.S.Validating LanguEdgeTM Courseware scores against faculty ratings and student self-assessments.ETS Research Report.2004.