高職英語教學質(zhì)控量化研究

2013-09-12 07:57:52甘利

外國語文 2013年4期

甘利

(廣東工程職業(yè)技術(shù)學院外語系，廣東廣州 510000)

1．引言

近些年來，語言測試的研究中心開始從經(jīng)典理論的信、效度的研究轉(zhuǎn)移至測試行為和過程的研究(曾用強，2012)。目前，雖然每年都舉行全校、全省以至全國的英語考試，包括英語四、六級考試，大專水平的應(yīng)用能力考試，但是各校一般只追求過級率，未能充分發(fā)揮測試應(yīng)起的作用。上述考試都有相當?shù)臋?quán)威，考試的區(qū)分度、難度、信度、效度等都經(jīng)過嚴格的檢驗，考生的成績很大程度上反映出學生的學習成果和教學效果。若我們以這些考試所反饋的數(shù)據(jù)為基礎(chǔ)，加上科學的分析，利用學生入學后由學校組織，按英語考試大綱要求所設(shè)計的英語水平考試，綜合檢測教學效果，便可以對英語教學質(zhì)量進行科學的定量分析、跟蹤與監(jiān)控，從而對英語教學質(zhì)量進行宏觀調(diào)控。

國內(nèi)外有關(guān)英語測試研究由來已久。Bachman(1990:155)指出，語言測試研究的目標之一就是考察影響語言測試行為的因素，語言測試成績的多變是考生個人語言能力和測試方法特點共同作用的結(jié)果，并將測試方法細分為五大方面，其中包括測試環(huán)境、試題要求、輸入性質(zhì)等。因此，大量研究都致力于探究某些因素的特定層面對語言測試的影響或不同層面對測試的交互影響，如對語言測試的整體研究(Liying et al．，2011;Jungok et al．，2011)/、聽力測試(Berne，1995;Ginther，2001，2002)、完形填空測試(JM O’et al．，2011)等各方面的專項研究。但是將數(shù)據(jù)統(tǒng)計分析應(yīng)用到外語教學和測試尤其是高職英語教學和測試的研究遠未到達滿意的程度。為了彌補此項研究的不足，本文嘗試展開了一項關(guān)于高職英語的實證研究，旨在發(fā)揮數(shù)據(jù)統(tǒng)計分析在此類研究中應(yīng)有的作用，從而提高高職英語教學質(zhì)量。

2．研究方法

2．1 研究描述

本研究通過自主研發(fā)的高職英語課程測試與教學質(zhì)量量化監(jiān)控系統(tǒng)軟件采集學生的測試數(shù)據(jù)并進行系統(tǒng)的自動分析。對比學生的測試成績和按要求所測試的測試組成元素和技能，監(jiān)控教師的教學表現(xiàn)、學生的學習效果和試卷的質(zhì)量。例如比較學生成績、按要求測試的技能點和相關(guān)因素，從而達到對以下三個方面進行監(jiān)控:(1)課堂教學表現(xiàn);(2)師生個體表現(xiàn);(3)試卷質(zhì)量。

2．2 研究問題

本研究采用定性和定量的研究方法，研究問題如下;

(1)該系統(tǒng)是否能監(jiān)控課堂教學效果;

(2)該系統(tǒng)是否能監(jiān)控師生個體表現(xiàn);

(3)該系統(tǒng)是否能監(jiān)控試卷質(zhì)量嗎。

2．3 研究對象

受試來自廣東工程職業(yè)技術(shù)學院三個系11個班的789名2008級新生。研究對象是學習公共英語的全體學生，平均年齡19歲，來自廣東省的不同縣市。

2．4 研究過程

為了了解受試的英語基礎(chǔ)，2008年9月對其進行了一場英語水平測試并獲取第一次考試的成績。受試完成該學期80學時的英語學習后，期末參加了由學院統(tǒng)一組織的期末考試，考試時間均為120分鐘，試卷類型相同，均包括六道大題，滿分100分?？荚囋嚲碛蓭酌淌诟鶕?jù)教學大綱和命題要求編寫，例如要具有一定的現(xiàn)實可行性、可比較性、可復制性、基礎(chǔ)性，每道小題都要達到所定的質(zhì)量標準，題目要求編寫簡明易懂。不同考試分別使用的AB卷是平行卷，每次考試都要做項目分析。具體的聽、讀、譯要求單獨列表如下:其中聽讀譯各部分的比例分配是依據(jù)高職英語課程教學能力目標(培養(yǎng)高職類學生的語言綜合能力和實際應(yīng)用能力，即用英語做事的能力)的要求并結(jié)合本校的教學實際(學生語言基礎(chǔ)普遍薄弱，技能欠缺，可供支配的教學資源有限)而定的。其中第一部分聽力的Section A五小題，聽5個句子，然后回答5個問題。Section B十小題，聽十組男女對話，然后回答十個問題。其目的是要測試學生對句子、對話的掌握。題材源于日常生活，難度由淺入深，這個部分的題型設(shè)計，一般與全國統(tǒng)考的題型大致相同，目的在于強化對比度，與全國考試接軌。第二部分詞語結(jié)構(gòu)與語法包括詞匯和語法兩個方面。詞匯方面，第一次水平考試所覆蓋的詞匯(含詞組)約在2000個基本單詞以下，以后每次期末水平考試遞增1000個左右，都是學生應(yīng)該掌握的常用語，目的在于考核學生常用語的掌握程度。語法方面為英語的基本語法，初始階段測試學生對基本語法的掌握程度。以后逐漸深化。最后著重考核學生在語法方面的應(yīng)用能力及熟悉程度。第三部分閱讀理解四篇文章，從不同角度分別測試學生判斷、邏輯思維、運用能力，強調(diào)實用性、基礎(chǔ)性。試題設(shè)計由淺入深。第一次水平測試以簡單形式的閱讀理解為主，逐漸過渡到理解句子字里行間的邏輯關(guān)系、分析作者的態(tài)度等。第四部分閱讀判斷目的是考察學生能否區(qū)分信息正誤及信息有無提及的能力。第五部分完形填空旨在考察學生綜合運用語言的能力，包括詞匯、基本語法、邏輯思維、同義詞反義詞。第六題翻譯都是基礎(chǔ)、實用型的題，目的在于考察學生英漢互譯中的綜合技能?？傊?，試題設(shè)計把聽、讀、譯及綜合能力都考慮在內(nèi)。說和寫的能力在時機成熟時，都要包括在內(nèi)。

聽力播放由播音室將錄音通過揚聲器清晰地傳送到每間考室，機讀卡由機器閱卷直接生成數(shù)據(jù)庫并自動錄入數(shù)據(jù)統(tǒng)計軟件包。全過程由考務(wù)部門的技術(shù)人員完成。主觀題的評分由任課教師集中統(tǒng)一評分，并事先進行試評，統(tǒng)一標準，試評結(jié)果顯示評分員之間的相關(guān)系數(shù)均達到0．8以上，在此過程中排除掉評分標準前后不一致的評分員，這樣單個評分員的前后評分標準也得到了控制，以保證評分的信度和效度。

對于本研究采集的數(shù)據(jù)，我們使用了不同的統(tǒng)計分析方法。每道題的項目分析標準如下表所示:

表1 項目分析標準(Li，1997:274)

考試分數(shù)通過SPSS軟件分析處理，結(jié)果有:平均分、標準誤(S．D．)、Z 值、圖表等。

3．數(shù)據(jù)收集與分析

第一次測試于2008年9月舉行，第二次測試于2009年2月舉行，即期末考試。所有的受試在同一時間考試，時長2小時。每次考試均按高考標準嚴格施行。所有答題卡回收后交付教務(wù)處專門的技術(shù)人員進行評分。

每學期的每次考試都按實施、分析、監(jiān)控和跟蹤的流程進行，包括每次的不同班級不同專業(yè)和不同系別的分數(shù)比較。每次測試的分析結(jié)果包括平均分、通過率、標準誤等。通過比較每次考試的相同題目的作答情況，我們能清晰地看出某位學生在此項考點技能上是進步還是退步了，同時也能得知他/她的英語總成績和分項成績在班級年級系以及整個學院的排名。還可以根據(jù)進退的絕對值而不僅是最終值或最終排名看出其進退的程度，例如某個學生的成績或某個班級的平均分從60上升到75，而另一個學生的成績或另一個班級的平均分從90上升到95，如果從最終值來看，后者肯定優(yōu)于前者，但從進退程度和教學效果來看，前者顯然優(yōu)于后者。

既然有很多分數(shù)之外的因素影響教學，監(jiān)控系統(tǒng)不能僅通過分數(shù)還要通過一些輔助手段來做出判斷或決策，例如應(yīng)該對教師教學態(tài)度、教學水平、教學表現(xiàn)、教學指導、教學方法進行測評和定量分析，但這些因素較主觀，在總評成績中的比重不應(yīng)超過20%。

有了這個系統(tǒng)，我們既可以發(fā)現(xiàn)問題還能對某些班級在某些題目上提供建議，還能對某位學生的所有考試成績或某個題目的得分提供分析和建議。該系統(tǒng)還可以監(jiān)控某位學生整個的學習進程或某位教師的英語教學中出現(xiàn)的問題。通過分析，我們可以了解到某個班在某個題目上得分最高，我們由此找出原因，總結(jié)經(jīng)驗并加以推廣。例如通過兩次考試比較我們找出進步最大的一個班級和退步最嚴重的一個班級進行實地案例研究，通過隨時深入課堂聽課錄像，師生座談等形式找到其背后原因。在我們的實地調(diào)查中，發(fā)現(xiàn)了一些原來沒考慮到的影響教學質(zhì)量的因素，例如教師在課堂教學中的語碼轉(zhuǎn)換風格、個性化語言風格、人格魅力、感染力、駕馭力、情感情緒狀態(tài)、教師本人的語言觀和跨文化意識、教師變更頻繁等。據(jù)此，每年都要評選出最優(yōu)秀的教師加以表揚獎勵或委以重任，表現(xiàn)不佳的需要再學習再培訓，仍達不到要求的為了確保教學質(zhì)量的調(diào)換崗位。

4．研究結(jié)果和討論

4．1 課堂教學效果的監(jiān)控

此次實驗中，來自三個系的789名受試被分成11個教學班。以下是兩次考試分數(shù)的描述性數(shù)據(jù)分析。

表2 第一次考試描述性統(tǒng)計數(shù)據(jù)

表3 第二次考試描述性統(tǒng)計數(shù)據(jù)

由上圖可知兩次考試的總體情況:第一次考試分數(shù)為正態(tài)分布(斜率值為0．009)，即“兩頭少，中間多”，高分和低分人數(shù)少，中間段分數(shù)居多;第二次考試分數(shù)呈負偏態(tài)分布(斜率值為－1．248);中高分段人數(shù)居多，低分段人數(shù)顯著減少。第二次平均分也遠高于第一次，從方差值來看，第一次分數(shù)分布比較集中均勻，第二次比較分散參差不齊。這也說明了受試剛?cè)雽W時的英語水平分布均勻，經(jīng)過半年的學習后，開始出現(xiàn)了分化和差距，大部分經(jīng)過半學期的學習取得了相應(yīng)的提高，達到了預(yù)期學習目標和教學效果。

下表是兩次考試分數(shù)的平均分比較的一個實例。

表4 兩次考試分數(shù)的獨立樣本T檢驗

由上表知，P值是．000遠小于0．05，因此我們可以說兩次平均數(shù)之間的差異達到了統(tǒng)計學上的顯著程度，拒絕零假設(shè)。也就是說，受試第二次比第一次表現(xiàn)更好。

為了獲得更多的有用信息，類似的比較還可以用于每個班每個系兩次考試分數(shù)以及三個系11個班之間某一次的分數(shù)比較。

4．2 師生個體表現(xiàn)監(jiān)控

該系統(tǒng)可以自動生成每次每個系的每個學生的分數(shù)。我們把每次所有的結(jié)果發(fā)布給每個系和每個教師。這樣當教學管理人員和教師們得知每個學生的考試情況后，就會去尋找背后的原因，并采取改進措施。例如，A受試的兩次考試成績，兩次年級排名和進退情況。在第一次考試中，A受試考了27分，但在第二次考試中上升至900分，這個進步很巨大;B受試第一次考了819分，第二次降至639分。

我們還可分析比較每個班的兩次考試的具體分數(shù)以及三個系11個班之間某一次的分數(shù)比較。如兩次考試中，第2次考試進步最大的班為商管系3班，其平均分從入學35分升為46分。退步最大的班為計算機1班，其平均分從入學48分下降到45分。其原因主要是該班任課教師不穩(wěn)定，頻繁調(diào)換過三位。由于學習方式和手段趨向多樣化，教師要想給眾多學習者提供足夠的幫助已力不從心。解決這一問題的有效辦法之一就是利用計算機實現(xiàn)對學生學習過程跟蹤檢測的診斷測試，電腦化診斷測試。計算機的采用推進了個別化自主學習的發(fā)展，學習者更加需要及時、詳盡的指導。(杜金榜、桂詩春，2000)

4．3 試卷監(jiān)控

該系統(tǒng)能保存并分析每次考試每個學生的總分和分項得分情況，由此我們就能分析出此次試卷是否達標，是否能有效區(qū)分學生成績的好壞。

經(jīng)統(tǒng)計，我們得知題目6的FV值是1．199，題目55的FV值是1．213，意味著他們是最容易的。題目3的FV值是－0．2，題目62的FV是－0．014，意味著他們是最難的，題目71的FV值是0．5，此難度值比較理想，因為這意味著一半的受試正確作答一般的受試作答錯誤。根據(jù)標準差，0．3至0．7認為是可接受的難度值。還有大量題目的難度值變化幅度很大，下一步將對試題區(qū)分度和效度作進一步研究。

基于以上的研究，我們可以得出結(jié)論:該系統(tǒng)通過對兩次考試的平均分、最高分、最低分、集中趨勢、分數(shù)升降的比較，能對課堂教學效果進行量化監(jiān)控此次實驗結(jié)果告訴我們第二次考試總體取得了進步，這是師生共同努力的結(jié)果，但仍有許多細節(jié)問題需要解決。通過對進步和退步背后原因的仔細分析，我們獲得了能反映師生個體表現(xiàn)的除了成績之外的更多的有用信息，這些信息大大完善和提高了分數(shù)的解釋力和監(jiān)控力。同時也說明該系統(tǒng)能監(jiān)控師生個體表現(xiàn)。

從考試的每道題目的分項數(shù)據(jù)來看，它不僅反映了師生在每個技能模塊的教學表現(xiàn)，還能提前獲得關(guān)于試卷質(zhì)量控制的一些關(guān)鍵技術(shù)指標值，例如信度、效度、區(qū)分度、難度等。有了這些數(shù)據(jù)反饋信息，以后我們每次編寫試題的時候都能據(jù)此做相應(yīng)的改善以提高試卷編寫質(zhì)量。這也說明該系統(tǒng)能監(jiān)控試卷質(zhì)量。

5．結(jié)語

通過現(xiàn)代化的測試手段，利用電腦軟件包，提供數(shù)據(jù)分析(學生成績)，監(jiān)控學生學習成績、教師教學效果所用測試試卷。通過量化的形式監(jiān)控教學質(zhì)量。此研究價值如下:(1)突破傳統(tǒng);(2)以現(xiàn)代測試手段，通過量化的形式監(jiān)控教學質(zhì)量;(3)不僅跟蹤學生學習成績，更能跟蹤教師的教學成果，還能監(jiān)控考試試卷，便于動態(tài)管理;(4)數(shù)據(jù)正確，行之有效，說服力強，判斷科學;(5)操作方便，應(yīng)推廣應(yīng)用到各種語言教學測試的監(jiān)控中，特別是人財物稀缺的高職院校。桂詩春(1989)指出，教育技術(shù)(educational technology)在語言測試中占有重要的位置。計算機為語言測試開辟了誘人的前景，目前所能做到的僅是一些初步的嘗試，它的潛力還有待發(fā)揮。語言測試在中國教育界特別是高職教育方面還有漫漫長路要走。

［1］Bachman，L．F．Fundamental Considerations in Language Testing［M］．Oxford:Oxford University Press，1990．

［2］Berne，J．How does Varying Pre-Listening Activities Affect Second Language Listening Comprehension?［J］.Hispania，1995(78):316－329．

［3］Ginther，A．Effects of the Presence and Absence of Visuals on Performance on TOEFL CBT Listening-Comprehension Stimuli(Research Report No．66)［C］．Princeton，NJ:Educational Testing Service，2001．

［4］Ginther，A．Context and Content Visuals and Performance on Listening Comprehension Stimuli［J］．Language Testing，2002(2):133－167．

［5］JM O’T．＆ K．RAR．The Deceptive Mean:Conceptual Scoring of Cloze Entries Differentially Advantages More able Readers［J］．Language Testing，2011(28):127 －144．

［6］Jungok，B．＆ L．Yae-Sheik．The Validation of Parallel Test Forms:“Mountain”and“Beach”Picture Series for Assessment of Language Skills［J］．Language Testing，2011(28):155－177．

［7］Liying，C．，Stephen，A．＆ Y．Ying．Impact and Consequences of School-based Assessment(SBA):Students’and Parents’Views of SBA in Hong Kong［J］．Language Testing，2011(28):221－249．

［8］曾用強．自信心與語言測試行為［J］．現(xiàn)代外語，2012(2)．

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看