中級(jí)漢語學(xué)習(xí)者語言能力自評(píng)量表的編制與檢驗(yàn)

2012-07-05 09:19:14王佶旻

中國(guó)考試 2012年11期

王佶旻

現(xiàn)代教育理念已經(jīng)從以教師為中心轉(zhuǎn)向以學(xué)生為中心，學(xué)習(xí)者應(yīng)該學(xué)什么，怎么去學(xué)成為語言學(xué)習(xí)的核心問題。在學(xué)習(xí)過程中，評(píng)價(jià)學(xué)習(xí)成就的方法主要有三種：測(cè)驗(yàn)、教師評(píng)價(jià)和學(xué)生自我評(píng)價(jià)，Mats Oscarson（1989）認(rèn)為進(jìn)行自我評(píng)價(jià)對(duì)學(xué)習(xí)有益，學(xué)習(xí)者有意識(shí)地評(píng)價(jià)自己的交際效果是習(xí)得過程的重要組成部分，它可以幫助學(xué)習(xí)者提高學(xué)習(xí)意識(shí)，明確學(xué)習(xí)目的，是評(píng)估領(lǐng)域的拓展。

語言能力自評(píng)量表是學(xué)生自我評(píng)估語言能力的評(píng)價(jià)工具，它可以幫助學(xué)習(xí)者對(duì)自己的語言水平做出判斷，從而對(duì)進(jìn)一步學(xué)習(xí)產(chǎn)生正面的影響。同時(shí)自評(píng)量表還能告訴學(xué)習(xí)者要提高語言能力應(yīng)該學(xué)會(huì)哪些語言知識(shí)和技能，這樣學(xué)習(xí)者就會(huì)有意識(shí)地去獲得這些能力。

語言能力自我評(píng)價(jià)量表具有很廣泛的實(shí)用價(jià)值，但自我評(píng)價(jià)量表必須建立在可靠性和有效性的基礎(chǔ)上，因而對(duì)所編制的量表進(jìn)行質(zhì)量檢驗(yàn)是十分必要的。

1 研究背景

最早的語言能力量表是美國(guó)政府部門在1955年制定的FSI（Foreign Service Institute）量表，制定該量表的初衷是為了規(guī)范測(cè)驗(yàn)的操作和評(píng)分，因此它不是自評(píng)量表而是測(cè)驗(yàn)的評(píng)分標(biāo)準(zhǔn)。其后，歐洲、美國(guó)、加拿大、澳大利亞及其他地方出現(xiàn)了多個(gè)語言能力量表，如美國(guó)的ACTFL大綱、澳大利亞的ISLPR量表、加拿大的CLB量表以及歐洲的ALTE量表等。其中ACTFL量表和ALTE量表是最具影響力的語言能力量表。

ACTFL大綱是美國(guó)教育測(cè)驗(yàn)服務(wù)中心（Educational Testing Service,ETS）和美國(guó)外語教學(xué)委員會(huì)（American Council for the Teaching of Foreign Language,ACTFL）于20世紀(jì)80年代制定的語言能力量表。該量表把語言水平分為10個(gè)小級(jí)別，并對(duì)聽、說、讀、寫四項(xiàng)分技能做了等級(jí)描述。ACTFL大綱對(duì)學(xué)習(xí)者的評(píng)估側(cè)重于真實(shí)的能力，而不細(xì)究學(xué)習(xí)者在何時(shí)何地以何種方式學(xué)習(xí)語言。ACTFL大綱是一個(gè)對(duì)語言教學(xué)、學(xué)習(xí)、測(cè)試以及語言政策都產(chǎn)生了長(zhǎng)遠(yuǎn)影響的能力量表。它對(duì)能力等級(jí)的劃分、等級(jí)標(biāo)準(zhǔn)的界定和語言表現(xiàn)的描述都為以后的能力量表的制定提供了參考。

ALTE量表是歐洲語言測(cè)評(píng)中心協(xié)會(huì)（Association of Language Testers in Europe）制定的關(guān)于語言應(yīng)用能力的評(píng)估量表，是歐洲語言共同參考框架（CEF）的重要組成部分。ALTE量表是以語言使用者為中心的評(píng)估機(jī)制，因而也可以作為學(xué)習(xí)者的自我評(píng)估量表。該量表把語言水平分為六個(gè)等級(jí)，并從聽、說、讀、寫四個(gè)方面對(duì)語言能力進(jìn)行了詳細(xì)的描述。描述采用“能做（can-do）”的形式，從社會(huì)生活與旅游、工作和學(xué)習(xí)三個(gè)方面對(duì)語言能力進(jìn)行描寫。

上述這些語言能力量表有三個(gè)主要特點(diǎn)：一是以聽、說、讀、寫四項(xiàng)語言技能為綱來描寫語言能力；二是以特定的任務(wù)或語言使用者能夠做什么來描述具體的語言能力，也就是用行為表現(xiàn)來進(jìn)行評(píng)估；三是對(duì)能力等級(jí)的劃分都以初、中、高三個(gè)主要等級(jí)為基礎(chǔ)。

2 研究過程

2.1 中級(jí)漢語學(xué)習(xí)者語言能力自評(píng)量表的編制

本研究的自評(píng)量表以中級(jí)漢語學(xué)習(xí)者為評(píng)估對(duì)象，分為聽、說、讀、寫四個(gè)分量表。在每一個(gè)分量表中，我們都從三個(gè)層面進(jìn)行描述，第一個(gè)層面是能力概說，以概括的語言對(duì)每一水平等級(jí)進(jìn)行描述，描述的主要任務(wù)是找出每一水平等級(jí)的區(qū)別性特征。例如聽力理解的能力概說為：“在日常生活、工作和學(xué)習(xí)中可以比較順利地實(shí)現(xiàn)和母語者的交流，能夠比較準(zhǔn)確地把握說話人的態(tài)度，觀點(diǎn)，聽懂重要的問題、指示，可以在較短的時(shí)間內(nèi)參與到討論中，不僅能聽懂自己熟悉話題的大部分觀點(diǎn)，在較陌生的話題上，也具備一定的跳躍障礙的能力，從而獲取需要的關(guān)鍵信息?！?/p>

第二個(gè)層面是“能做描述”，通過語言任務(wù)的形式對(duì)不同水平等級(jí)的學(xué)習(xí)者能夠做什么進(jìn)行詳細(xì)描述。能做描述也要從不同的子能力維度展開，以典型的作業(yè)任務(wù)為描述的依據(jù)，而非隨意描述。比如在閱讀能力量表中，“能做描述”分為文本說明和閱讀過程兩個(gè)子維度。文本說明部分主要根據(jù)閱讀材料的體裁和篇章來對(duì)學(xué)習(xí)者進(jìn)行區(qū)分。例如“能讀懂會(huì)議議程?！遍喿x過程關(guān)注閱讀時(shí)所涉及的各種技能，包括總結(jié)和概括、尋找細(xì)節(jié)、查找段落關(guān)系、推論、與目的語文化背景的結(jié)合、閱讀技巧以及使用參考書和詞典的能力。例如“能將一篇文章里不同部分的信息，或者不同文章里的信息歸納匯總，以完成特定的交際任務(wù)。”

第三個(gè)層面是量化指標(biāo)，主要從字、詞掌握數(shù)量，閱讀和聽力的速度等方面來區(qū)分不同水平的學(xué)習(xí)者。例如“能在30分鐘內(nèi)寫出300字以上的信或短文?！?/p>

中級(jí)漢語學(xué)習(xí)者語言能力自評(píng)量表采用李克特5級(jí)量表（Likert scale）來采集數(shù)據(jù)，學(xué)生在完成量表時(shí)需要對(duì)每一條描述語和自己實(shí)際語言水平相符的程度進(jìn)行評(píng)價(jià)，如果完全符合選擇5，完全不符合則選1。量表的結(jié)構(gòu)和題目數(shù)量如表1所示。

2.2 被試

本研究的被試為報(bào)名參加2011年6月舉行的漢語水平考試HSK（初中等）考試的考生，共165名。被試在報(bào)名當(dāng)日完成量表調(diào)查，并于一周后參加HSK考試。因此被試完成量表時(shí)的語言水平與其參加HSK考試時(shí)的水平基本一致。被試的具體情況如表2所示。

2.3 題目的難度與區(qū)分度

題目的難度和區(qū)分度與量表的質(zhì)量密切相關(guān)，難度適中，區(qū)分度良好的題目所組成的量表具有較好的測(cè)量精度。由于題目采用5級(jí)量表記分而非0/1記分，因此難度的求得采用公式P=所有被試該題得分的平均數(shù)/該題滿分分?jǐn)?shù)。區(qū)分度用被試在該題上的得分與其量表總分之間的相關(guān)來表示，同時(shí)檢驗(yàn)高分組和低分組的得分差異。根據(jù)測(cè)量學(xué)的一般做法，高分組指的是得分從高到低排列，前27%的人，低分組則是后27%的人，高分組和低分組的得分有顯著差異代表題目的區(qū)分度良好。我們按上述辦法計(jì)算了每個(gè)題目的難度、區(qū)分度以及高分組和低分組得分的平均數(shù)差異檢驗(yàn)（T檢驗(yàn)）。結(jié)果表明，題目難度中等偏易，區(qū)分度良好，高分組和低分組得分的平均數(shù)差異顯著。具體情況如表3所示。

2.4 量表的信度檢驗(yàn)

我們使用α系數(shù)檢驗(yàn)總量表以及各分量表的內(nèi)部一致性信度，結(jié)果如表4所示。

表4 總量表及各分量表的內(nèi)部一致性信度

從表4可以看出，中級(jí)漢語學(xué)習(xí)者自評(píng)量表以及聽力、閱讀、口語和書面分量表的內(nèi)部一致性信度（α系數(shù)）都較高，說明量表的測(cè)量信度較好。

2.5 量表的效標(biāo)關(guān)聯(lián)效度檢驗(yàn)

2.5.1 效標(biāo)的選取

信度和效度是測(cè)驗(yàn)的兩大質(zhì)量標(biāo)準(zhǔn)，也是測(cè)驗(yàn)研究的重要問題，其中效度又是重中之重。正如Dieterish&Freeman（1979）所談到的，如果脫離了效度問題，那么包括信度在內(nèi)的一切有關(guān)測(cè)驗(yàn)標(biāo)準(zhǔn)或質(zhì)量的討論都會(huì)顯得毫無意義。Bachman（1990）也指出，在測(cè)驗(yàn)的開發(fā)、解釋及應(yīng)用中，需要考慮的最重要的問題就是效度。在建立效度的過程中，我們需要收集一種證據(jù)，這種證據(jù)表明測(cè)驗(yàn)分?jǐn)?shù)和某個(gè)標(biāo)準(zhǔn)之間的關(guān)系，而我們相信這個(gè)標(biāo)準(zhǔn)同樣表現(xiàn)了所測(cè)的能力。使用這種方法建立的效度就是效標(biāo)關(guān)聯(lián)效度（criterion-related validity）。在效標(biāo)關(guān)聯(lián)效度的檢驗(yàn)過程中，最重要的步驟就是尋找合適的效標(biāo)。一個(gè)好的效標(biāo)必須具備以下幾個(gè)條件：

表2 被試的具體情況

（1）同質(zhì)性，即與研究對(duì)象的測(cè)量特質(zhì)相同。

（2）有效性，即能真正反映所要測(cè)量的特質(zhì)。

（3）可靠性，也就是要有較高的信度。

（4）客觀性，即沒有“效標(biāo)污染”。個(gè)人的效標(biāo)成績(jī)可能由于評(píng)定者知道其預(yù)測(cè)源分?jǐn)?shù)而受到影響，從而降低了客觀性，這稱為“效標(biāo)污染”。

（5）實(shí)用性，最佳的效標(biāo)測(cè)量應(yīng)該用法簡(jiǎn)單、省時(shí)、花費(fèi)少。（鄭日昌等，2001）

本研究采用被試參加的漢語水平考試（HSK）作為效標(biāo)。HSK是專門測(cè)試母語非漢語者的漢語水平的國(guó)家級(jí)標(biāo)準(zhǔn)化考試，具有二十幾年的歷史，在海內(nèi)外享有很高的學(xué)術(shù)和市場(chǎng)聲譽(yù)，是一個(gè)比較可靠的效標(biāo)。本次HSK（初中等）考試的結(jié)構(gòu)、題型與信度系數(shù)如表5所示。

表5 HSK（初中等）考試的結(jié)構(gòu)、題型與信度系數(shù)

在效標(biāo)選取上，我們采取考察內(nèi)容近似的原則，以HSK總分作為總量表的效標(biāo)，以HSK聽力理解測(cè)驗(yàn)的成績(jī)作為聽力理解分量表的效標(biāo)，以HSK閱讀理解測(cè)驗(yàn)的成績(jī)作為閱讀理解分量表的效標(biāo)。由于HSK考試的綜合填空部分考查書面表達(dá)和漢字書寫能力，因而可以作為書面表達(dá)分量表的效標(biāo)。口語分量表的效標(biāo)也選用HSK聽力理解測(cè)驗(yàn)的成績(jī)，這是因?yàn)槁牶驼f具有十分密切的關(guān)系，在沒有口語測(cè)驗(yàn)作為效標(biāo)的情況下，選擇聽力測(cè)驗(yàn)成績(jī)作為效標(biāo)也是可行的。

2.5.2 檢驗(yàn)結(jié)果

效標(biāo)關(guān)聯(lián)效度的檢驗(yàn)結(jié)果如表6所示。

表6 效標(biāo)關(guān)聯(lián)效度的檢驗(yàn)結(jié)果

從表6可以看到，總量表以及四個(gè)分量表與各自的效標(biāo)的相關(guān)都在0.05水平上顯著，相關(guān)系數(shù)在0.40～0.50，屬于中等程度的相關(guān)。

3 討論與結(jié)論

3.1 量表中描述語的選擇與修訂

語言能力自評(píng)量表中對(duì)能力的劃分和界定主要依靠各種描述語來完成，因此描述語的質(zhì)量直接影響到量表的信、效度。描述語的產(chǎn)生有不同的方法，比如向?qū)＜艺骷瘜?duì)學(xué)習(xí)者語言能力的評(píng)述語，根據(jù)確定的語言能力結(jié)構(gòu)及其參數(shù)體系來編寫描述語等。我們采用的方法是收集國(guó)內(nèi)外已有的語言能力量表和大綱，把其中的描述語挑選出來，然后根據(jù)確定的語言能力維度和參數(shù)體系將合適的描述語放進(jìn)去，最后再進(jìn)行描述語的修訂。

通過對(duì)每一條描述語的難度、區(qū)分度以及選項(xiàng)分布等題目質(zhì)量參數(shù)的評(píng)估，我們歸納了挑選和修訂描述語的幾條基本原則：（1）描述語的單維性，即，除總說部分外，每條描述語只描述一個(gè)參數(shù)或一項(xiàng)能力；（2）描述語的排他性，即任意一條描述語中都不含有其他描述語所描述的內(nèi)容，描述語之間不重復(fù)；（3）描述語都采用正向描述的方式，不使用否定詞語；（4）盡量避免大量使用程度詞來修飾描述語，如比較準(zhǔn)確等；（5）描述語在表達(dá)上做到準(zhǔn)確、簡(jiǎn)潔。

3.2 量表的質(zhì)量評(píng)估

評(píng)價(jià)量表的質(zhì)量主要從題目質(zhì)量、量表信度和效度三方面著手。從研究結(jié)果來看，中級(jí)漢語學(xué)習(xí)者語言能力自評(píng)量表質(zhì)量?jī)?yōu)良。題目平均難度為0.66，屬于中等偏易，說明問卷中的題目與被試的實(shí)際語言水平比較相符。在分量表中，聽力和口語的難度略低于閱讀和寫作。這可能是因?yàn)轭}目大多描寫課堂外實(shí)際運(yùn)用語言的場(chǎng)景，而學(xué)生在現(xiàn)實(shí)生活中運(yùn)用聽和說的機(jī)會(huì)多于讀和寫，因而他們對(duì)聽力和口語的場(chǎng)景熟悉程度高，傾向于給出較高的分?jǐn)?shù)。從題目的區(qū)分度來看，所有題目在高分組和低分組中都有很好的鑒別力，平均數(shù)差異顯著，題目與總分的相關(guān)較高，說明題目具有較好的區(qū)分度。量表的信度檢驗(yàn)表明題目的內(nèi)部一致性很好，信度較高。

從量表的效度檢驗(yàn)來看，總量表和效標(biāo)（HSK總分）之間的相關(guān)為0.46，這在自我評(píng)價(jià)的研究中是相對(duì)較高的。Bachman&Palmer（1989）的研究計(jì)算了自我評(píng)價(jià)和面試以及多項(xiàng)選擇題的相關(guān)，分別為0.47和0.46，他們認(rèn)為這樣的相關(guān)已經(jīng)是相當(dāng)可觀了。其他一些研究，如Powers,D.,Roever,C.,Huff,K.L.,&Trapani,C.S.（2004）得到了0.3的相關(guān)，而Anne-Mieke Janssen-van Dieten（1989）的研究?jī)H得到了0.19的相關(guān)。因而我們可以說本研究的語言能力自我評(píng)價(jià)量表的效標(biāo)關(guān)聯(lián)效度還是比較高的。從各個(gè)分量表來看，聽力、閱讀、口語和寫作分量表與它們各自的效標(biāo)之間的相關(guān)都在0.40以上，其中閱讀分量表的效標(biāo)關(guān)聯(lián)效度系數(shù)達(dá)到了0.50，說明各個(gè)分量表的效標(biāo)關(guān)聯(lián)效度都比較好。

3.3 關(guān)于語言技能間的關(guān)系

在分析四個(gè)分量表與HSK各個(gè)分測(cè)驗(yàn)的相關(guān)關(guān)系的過程中，我們發(fā)現(xiàn)了一些有意思的現(xiàn)象。雖然四個(gè)分量表與它們各自的效標(biāo)之間的相關(guān)最高，但它們同時(shí)都和語法分測(cè)驗(yàn)具有較高的相關(guān)。這種現(xiàn)象暗示著語法知識(shí)在聽、說、讀、寫四項(xiàng)技能中都占有很重要的位置，反過來說，也暗示著語法不是一個(gè)需要獨(dú)立測(cè)量的子能力，而是作為一種語言使用的必備要素體現(xiàn)在聽、說、讀、寫各項(xiàng)語言技能中。這一點(diǎn)張凱（1997）和郭樹軍（1997）在研究HSK的構(gòu)想效度時(shí)已經(jīng)有所發(fā)現(xiàn)。

另外，我們還發(fā)現(xiàn)，口語分量表與HSK各個(gè)分測(cè)驗(yàn)的相關(guān)是最低的，與自評(píng)量表中其他分量表的相關(guān)也是相對(duì)最低的。這一方面是因?yàn)槲覀冞x擇的效標(biāo)中沒有口語測(cè)驗(yàn)，另一方面也說明口語能力是一種相對(duì)獨(dú)立的語言技能。這一現(xiàn)象在周聰（2010）以及原鑫（2011）的研究中曾經(jīng)得到了證實(shí)。這就提醒我們?cè)趯?duì)語言技能進(jìn)行評(píng)估時(shí)要采取分開評(píng)價(jià)的模式，特別是對(duì)于口語能力。

[1] 郭樹軍.漢語水平考試（HSK）項(xiàng)目?jī)?nèi)部結(jié)構(gòu)效度檢驗(yàn)[J].漢語水平測(cè)試研究.北京：北京語言大學(xué)出版社.1997.

[2] 高級(jí)水平漢語學(xué)習(xí)者聽說讀寫四項(xiàng)技能的關(guān)系研究[D].北京語言大學(xué)碩士論文.2011.

[3] 周聰.綜合式測(cè)試方法對(duì)初級(jí)水平漢語學(xué)習(xí)者的適用性研究[D].北京語言大學(xué)碩士論文.2010.

[4] 張凱.漢語水平考試結(jié)構(gòu)效度初探.見：漢語水平測(cè)試研究[M].北京：北京語言大學(xué)出版社.1997.

[5] 鄭日昌，蔡永紅，周益群.心理測(cè)量學(xué)[M].北京：人民教育出版社.2001.

[6] Bachman,L.F.,Fundamental Considerations in Language Testing.Oxford University Press.1990.

[7] Bachman,L.F.&Palmer,A.S.,The Construct Validity of Self-rating of Communicative Language Ability.Language Testing.1989，V6 N1：14-29.

[8] Anne-Mieke Janssen-van Dieten.The Development of a test of Dutch as a Second Language:the validity of self-assessment by inexperienced subjects.Language Testing.1989，V6 N1：30-47.

[9] Dieterish&Freeman.A Guide to English Proficiency Testing in School.Center for Applied Linguistics.1979.

[10] Mats Oscarson.Self-assessment of Language Proficiency:rationale and applications.Language Testing.1989，V6 N1：1-13.

[11] Powers,D.,Roever,C.,Huff,K.L.,&Trapani,C.S.Validating LanguEdgeTM Courseware scores against faculty ratings and student self-assessments.ETS Research Report.2004.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看