用效度和信度控制試題質量

2022-06-21 19:16:13劉永俊

名師在線·上旬刊 2022年6期

摘要：測試是英語教學環(huán)節(jié)中非常重要的一個部分，它能夠為英語教學提供反饋，檢測學生的學習效果、教師的教學水平及學校的教學質量。一份高質量的試題一定具有以下特征：效度高、信度高、具有可操作性、具有積極的反撥作用。效度和信度是語言測試學專家一致認為非常重要的評價指標?；诖?，文章從效度和信度這兩個方面談談如何控制試題命制的質量，并提出具體策略。

關鍵詞：英語;效度;信度;試題

中圖分類號：G40? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼：A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文章編號：2095-9192（2022）16-0044-05

引? 言

英語測試對英語教學有很大影響，它對教學的反撥作用非常明顯。設計良好的測試會帶來正反撥作用，對促進學生英語語言能力的提高起到很大作用，對教師的教學方向產生積極的指導作用。相反，試題命制如果出現(xiàn)問題，則會給教師的教學和學生的學習帶來負面沖擊。因此，作為試題命制者，我們需要探討如何才能設計出一份高質量的英語試題。

效度和信度是語言測試學專家一致認為的非常重要的評價指標。所以，本文從效度和信度這兩方面談談如何控制試題命制的質量。

一、效度

語言測試的效度是指一個測試是否考了它要考的方方面面的內容。效度一般分為六個方面：構念效度、內容效度、共時效度、預測效度、后效效度和表面效度。

（一）構念效度

從廣義上講，構念效度中的構念是指整個考試以之為基礎的理論結構。不同的考試有不同的構念，即不同的考試有不同的理論依據。構念不同，試卷所呈現(xiàn)出來的考查形式和考查內容就會不同。構念效度是語言測試的主要效度，是其他幾個方面效度的基礎，構念效度決定整個考試的性質。

就高考而言，測試依據考試說明編寫，考試說明又是基于考試大綱設計出來的，而考試大綱編寫依據的是《普通高中英語課程標準（2017年版2020年修訂）》（以下簡稱《課程標準》）。因此，《課程標準》就是我國高考的理論基礎。

對于中學英語測試而言，越能體現(xiàn)《課程標準》要求的測試，構念效度越好。目前，《課程標準》的修訂方向是從綜合語言運用能力轉向英語學科核心素養(yǎng)。這就說明，高中英語測試的構念發(fā)生了變化。教育部組織研究、提出各學段學生發(fā)展核心素養(yǎng)體系，明確學生應具備的適應終身發(fā)展和社會發(fā)展需要的品格和關鍵能力，突出強調個人修養(yǎng)、社會關愛、家國情懷，更加注重自主發(fā)展、合作參與和創(chuàng)新實踐。因此，為了保證測試的構念效度，在《課程標準》實施后，試題必須依據《課程標準》的要求進行命制。

《課程標準》指出，英語學科核心素養(yǎng)主要包括語言能力、文化意識、思維品質和學習能力，各要素的發(fā)展以三個水平劃分。我們以“文化意識”為例進行說明?！墩n程標準》提到，文化意識的培育有助于學生增強國家認同和家國情懷，堅定文化自信，樹立人類命運共同體意識，學會做人做事，成為有文明素養(yǎng)和社會責任感的人。對“文化意識”這一素養(yǎng)的三級描述為：一級，通過中外文化對比，加深對中國文化的理解，堅定文化自信;二級，尊重和理解文化的多樣性，具有國際視野，進一步堅定文化自信;三級，分析、鑒別文化現(xiàn)象所反映的價值取向，自覺堅定文化自信。不難看出，“堅定文化自信”是個高頻短語。分析近幾年的高考題能夠發(fā)現(xiàn)，高考題中有關中國元素和中國文化的內容較以前有明顯增加，以2021新高考I卷語法填空為例。

Going to Mount Huangshan reminds me of the popular Beatles' song“The Long and Winding Road”.

56? ?is so breathtaking about the experience is the out-of-this-world scenes. The rolling sea of clouds you see once you are at the top will remind you how tiny we? ?57? ?（human） are.

The hot spring at the foot of the mountain is something you must try after the climb. It will? ?58? ?（undoubted） help you get refreshed！ The amazing thing about the spring is that the colder the temperature gets， the? ?59? ?（hot） the spring！ Strange， isn't it？ But that's how nature is — always leaving us? ?60? ?（astonish）.

What comes next is the endless series of steps. You can't help wondering how hard it? ?61? ?（be） for the people then to put all those rocks into place. Though it is the only unnatural thing on your way up the mountain， still it highlights the whole adventure? ?62? ?offers a place where you can sit down to rest your? ?63? ?（ache） legs.

As the song goes， this long and winding road“will never disappear”， and it will always stick in the visitor's memory. It sure does in? ?64? ?（I）. While you're in China， Mount Huangshan is? ?65? ?must to visit！

這篇材料介紹了作者游覽黃山的所見所聞，展示了祖國的大好河山。

從微觀角度看，測試是否具有構念效度體現(xiàn)在聽說讀寫每一種測試是否考查了所要考查的能力。如下面一道口語測試題：

Can you tell me the name of the animal in the picture？

該口語測試的構念效度比較低，因為它考查的不只是口語能力。如果學生口語能力達到了，但不認識圖1中的動物，那么試題就無法考查學生真實的口語能力。也就是說，這道題目并沒有考到它所要考的內容。

（二）內容效度

李筱菊認為，內容效度是指測試是否考了考試大綱規(guī)定要考的[1]。Hughes 認為，如果一個測試的內容包含了具有代表性的語言技能、結構等，那它就被認為是有效的。

（1）What is tested should be related to the predetermined test domain， e.g. a listening test should include the measurement of skills relevant to the test domain.

（2）What is tested should be representative of the predetermined set of skills or abilities， i.e. a test should cover a greater variety of skills or language elements relevant to the test domain.

我們可以看出，內容效度關注的是考試是否和所要考查項目的能力相關，考查點是否體現(xiàn)代表性的語言技能和結構。我們來看下面的例子。

下列技能是否都和閱讀相關呢？

（1）能讀懂語言簡單、不同類型的材料，如簡短故事、書信等，提取細節(jié)信息，概括主旨要義。

（2）能有條理地講述簡短故事或個人經歷。

（3）能通過分析句子和篇章結構讀懂語言較復雜的材料，理解意義之間的關系。

很明顯，第二條是關于表達性技能的，那么在考查閱讀能力的考試中就不合適，與考查能力不相關。

再來看一個例子。某篇閱讀理解題的考查點見表1。

從表1可以看出，所有的設題都是具體細節(jié)題，那么這些題目的代表性是不夠合理的，所以這篇閱讀理解題目的內容效度相對較低。

（三）共時效度

共時效度是指一個測試所檢測的內容和一個目前已經存在的測試標準之間的關系。這里所提到的目前已經存在的測試標準包括兩個方面：一個高質量的標準化測試;一系列評價標準。因此，我們需要借助另一個高質量的測試或評價作為驗證標準，來判斷新的測試是否具有共時效度[2]。

首先，我們可以借助另一個高質量的測試來檢驗測試的共時效度：把一份試卷和一份水平相當的高質量的試卷讓學生一起做，如果分數相當，則共時效度高。

以 FCE（First Certificate in English，劍橋英語五級證書考試的第三級）為例，通過FCE考試，相當于雅思考試成績達到5～6.5分，即FCE（pass）= IELTS（5～6.5）。如果應試者參加完FCE并通過考試，而且參加雅思考試成績達到了5～6.5分，則說明 FCE考試的共時效度比較高。

（四）預測效度

預測效度是指測試是否起到了有效的預測作用，或者在多大程度上預測了學生在未來學習中的學習成就。以高考為例，從總體上說，考試成績較好的高中畢業(yè)生到大學仍然成績較好，成績比較低的學生則很難有很大的超越。因此，高考試卷具有比較好的預測效度。

共時效度和預測效度有一個共同點，即它們都是利用測試之外的標準而得以證實的效度。因此，共時效度和預測效度也被稱為外在效度（external validity）。

共時效度和預測效度的不同之處在于：（1）前者是共時，后者是歷時。共時效度是指通過對兩次時間相近的評價結果進行比較，得出一致性程度的結論。預測效度要對兩次時間相隔較遠的評價結果進行比較，說明測試是否能預測受試者目標能力將來的發(fā)展。（2）考試目的不同。共時效度說明測試是否能判斷受試者目標能力的現(xiàn)狀;預測效度說明測試是否能預測受試者目標能力將來的發(fā)展。

測試學家們普遍認為外在標準是最客觀的標準，依據外在標準的驗證方法是最科學的方法，因此，共時效度和預測效度也是被最多人承認的效度[3]。

（五）后效效度

后效效度是指測試結果是否造成了一定的社會后果。

以英國醫(yī)生資格考試為例，該考試測試的是在英國當醫(yī)生需具備的英語能力。如果該考試的難度過高，會出現(xiàn)醫(yī)生具備和病人交流所需的英語語言能力，但是沒有通過考試的情況，其后果是該醫(yī)生無法在英國從醫(yī)，而英國很可能因此錯失一位好醫(yī)生。如果該考試難度較低，很多醫(yī)生雖然還不具備和病人交流所需的英語語言能力，但是通過了考試，獲得了在英國的從醫(yī)資格，這樣造成的社會后果可能會很嚴重，如給病人醫(yī)錯病、開錯藥。

需要注意的是，如果一個測試的預測效度不佳，則其后效效度通常也會存在問題。以高考為例，如果一個學生的高考成績很好，但大一成績很差，說明高考預測效度不高，同時說明高考的難度可能過低，該學生很可能英語能力還不足夠上大學，但是卻被錄取了，這會對社會發(fā)展、學生就業(yè)等造成不良影響，這種情況也意味著該測試的后效效度不高。

（六）表面效度

表面效度是指試卷看上去是否能夠測量所要測量的東西，考試表面的形式和內容是否讓受試者覺得有效、獲得認同。

如果一項針對幼兒的英語測試沒有使用豐富的圖畫，而是使用了大量的詞匯，那么該測試的表面效度就不高，是不會被認同的。如果做題說明中有生詞，受試者難以理解做題要求，則受試者會覺得不客觀公正，不會認同，即表明該測試的表面效度不高。

另外，做題要求不明確或者出題不嚴密也都可能導致表面效度低。例如，一次測試中有這樣一道題目：How powerful is the earthquake？正確答案是 7.9 magnitude（s）。但由于出題不嚴謹，有的學生回答Very powerful。學生的作答不能算錯，但是與測試者期望的答案完全不同，這樣的測試表面效度就很低。

效度的六個方面（構念效度、內容效度、共時效度、預測效度、后效效度及表面效度）是一個整體，而不是效度的六個種類。在實踐活動中，不能將它們割裂開，而是要作為一個整體去考慮。

（七）如何保證效度

效度是評價測試最重要的一個指標，作為命題者，保證測試的效度是一項非常重要的工作。我們應該如何保證測試的效度呢？

首先，在命題前，我們應該有一份清晰而詳細的細目表，即考試說明。根據 levels of assessment design 理論，考試說明是依照考試大綱制定的，而考試大綱又是以《課程標準》為參考的。因此，我們的測試能夠以考試說明為基礎進行命制，那么該測試的效度，尤其是內容效度，就能得到保證。

其次，盡可能使用直接測試的方法。即聽力考試通過聽的方式，口語考試通過說的方式，而不是通過選擇題考查語音知識，這樣才可以保證測試的構念效度，否則，考查的能力就不全面。這也是高考題增加聽力測試后語音知識題被取消的原因。

另外，應該讓學生熟悉試卷結構和試題形式。每年中高考考試大綱的說明都給出樣題，這是為了保證測試的表面效度。因此，我們命制的試題要跟樣題保持一致，讓學生熟悉測試形式，使試卷看上去公正。

最后，在命題完成之后，命題者需要對試題進行檢查、改進、試測和調整，最后定稿。這樣做的目的是從整體上把握測試的效度。

二、信度

信度是測試結果的可信、可靠程度，或者說是一個測試的結果和它自身或其他測試結果之間一致性的實際水平。信度高的測試有很好的一致性和穩(wěn)定性。測試信度的關鍵是客觀和公平，而要達到客觀、公平，我們需要考慮以下四種信度：考生信度、測試實施信度、測試內容信度和評分信度。下面，我們將分析這四個方面的信度，并探討如何提高信度。

（一）考生信度

考生信度是指考生參加測試時的身心狀態(tài)和水平發(fā)揮的程度。保證考生信度涉及很多方面，如要確?？忌纳眢w健康、動機正確、情緒穩(wěn)定、記憶力正常、注意力集中、細心認真、按時或提前完成測試、沒有作弊現(xiàn)象等。試想，如果有考生在考試當天咳嗽或者發(fā)燒，勢必會影響考生水平的正常發(fā)揮，考試結果也不能真實地反映考生的水平，那么這個測試的信度就不是很高。有些測試可能會含有需要考生辨別顏色的題目，這樣的題目對患有色盲的考生來說是不公平的，這同樣會影響考試的信度。有的考生在平時的學習過程中練習的題量較大，教師傳授的解題思路較多，對生活的體驗較多，對某些領域的知識較熟悉，這部分考生能夠更容易理解做題說明，更快找到解題思路，掌握較多的猜題技巧，更容易理解涉及某些領域知識的題目，并且能夠較快地完成測試;而做題量較少、生活體驗較少、對某些領域的知識較生疏的學生就會處于劣勢，這會導致測試結果有失公平，不利于保證測試的信度。

（二）測試實施信度

測試實施信度包括測試環(huán)境的信度和測試實施方式的信度。測試環(huán)境的信度涉及考場的地理位置、考場空間大小、考場的空氣流通、考場內外的噪聲、考場的光線及考場的溫度等各方面情況。例如，考場的噪聲與考生的注意力密切相關。如果考場內外有噪聲且噪聲很大，那么考生的注意力會受到嚴重干擾，尤其是當考生在做聽力測試的過程中，噪聲會嚴重影響考生的正常發(fā)揮，直接影響考生的考試成績，進而影響考試的信度?？紙隹臻g大小也與考試的信度有關。如果考場空間大，考生與考生的前后左右間隔距離加大，這樣會降低考生作弊的幾率，有利于保證考試的信度。反之，則有可能降低考試的信度[4]。

另外，考場的空氣流通程度、光線及溫度與考生的狀態(tài)緊密關聯(lián)。如果這三個條件達到最佳，則有助于將考生身體及大腦調整至最佳狀態(tài)，保證考生在考場上的正常發(fā)揮，也有利于保證考試的信度。

測試實施方式的信度涉及測試所用設備的質量、測試時間的長度、監(jiān)考員的指令、同一測試用于不同時間、不同的測試對象及監(jiān)考員對考生的態(tài)度等各方面的情況。例如，測試同一聽力試題時，A考場的考生所聽的內容出自一臺小錄音機，而B考場的考生所聽的內容出自一位教師的當場朗讀，并且速度很慢，那么考試分數的信度必然會降低。如果監(jiān)考員對如何填寫答卷等的指令說明不夠清楚，給考生造成理解的障礙，也會影響考生的分數，從而影響考試的信度。

（三）測試內容信度

測試內容信度涉及題量、題型的種類、試題難易度、試題區(qū)分度和試題的偏頗性等方面。一般來說，一套信度較高的試題含有足夠多的題目和多種題型。題目越多，題型越多樣，越能檢測出考生對不同知識點和解題技巧的掌握程度，以及考生對不同題型的解答能力，考試結果更能客觀地反映出考生的水平。反之，如果一套試題只有四五個簡答題，或十幾個選擇題，單憑回答幾個問題或做十幾個選擇題就對考生的綜合語言運用能力做出評價，顯然是不公平的，是缺乏信度的。

試題的難易度和區(qū)分度也是衡量試題信度的兩個重要方面。如果一套試題中有幾道題目的難度超出考生的認知水平，那么這幾道題就是沒有意義的，因為它們無法檢測考生的真實水平。因此，保證試題的難度適中是保證試題信度的關鍵。難度適中也是保證區(qū)分度的一個重要途徑。題目太難或太簡單，都會導致多數考生答錯或者答對，這樣的結果表明區(qū)分度很低。區(qū)分度是為了把不同水平的考生區(qū)分開，這有利于教師更好地了解每一位學生的水平，了解學生對知識點的掌握程度，也有利于各機構通過一些重要考試公平地選拔人才。試題的區(qū)分度高，信度就高。試題的偏頗性也會影響試題的信度。試題的偏頗性即試題有利于一部分考生，而不利于另一部分考生。例如，如果試題中有的題目考查有關足球或籃球方面的內容，那么男孩就較容易理解或解答該題目，而女孩就處于劣勢，這樣的題目就有偏頗性。另外，還需要考慮的幾點是試題的內容是否適合考生的心智;整套試題是否考查同一范疇、同一領域的內容;試題是否有較大范圍的測試對象，即測試對象是否在不同水平。

（四）評分信度

評分信度包括評分標準的信度、評分員之間一致性的信度和評分員個體一致性的信度。對于一套試卷中的主觀題尤其像寫作類的題型，評分標準合理與否與試題的信度密切相關。例如，如果一套試題寫作部分的評分標準比較籠統(tǒng)，不夠詳盡，評分員評分時就有可能考慮不周，評分概念模糊，造成評分結果差異很大，進而導致評分不夠客觀、公正。

評分員之間一致性的信度是指不同評分員給同樣的被評對象評定成績時的一致性程度的量度。如果評分員給出的分數差異很大，就說明評分員之間一致性的信度較低，這對考生來說是不公平的。以高考書面表達為例，每份試卷隨機由兩位評分員評分，如果超過4分的差值，則由第三位評分員評分，如果第三位評分員與其他兩位評分員的差值仍超過4分，則需要由仲裁組最后仲裁。

評分員個體一致性的信度是指同一位評分員在不同的時間對同樣的項目評分一致性程度的量度。例如，A評分員在給某班40個考生的作文評分兩周以后再次評分，兩次評分的結果沒有太大的差異，則說明該評分員的個體一致性的信度較高。反之，如果評分結果差異很大，則說明該評分員的個體一致性的信度較低。

（五）提高試題信度的方法

增加一定量的客觀題?？陀^題能使評分員做到評分一致，能夠保證測試有很高的評分信度。因此，如果一套試題中客觀題的數量多一些，主觀題的數量少一些，即使主觀題的評分結果有一些差異，總分的差異也不會太大。但是，這并不意味著客觀題越多越好，因為客觀題也有其局限性。因此，酌情適量增加客觀題是最明智的做法。

適當增加題目的數量和題型。適當增加一些題目的數量和不同的題型，即使有的題結果差異大一些，但對整套試題的測量誤差的影響不會太大，還能夠更有效地檢測考生的實際水平。

確保試題的難易度和區(qū)分度符合標準。要做到試題的難易度適中和區(qū)分度高，最好的辦法是根據題目分析后得出的難易度數據和區(qū)分度數據，來判定這兩類數據是否達標。發(fā)現(xiàn)不達標的題目，就應立即修改，直至符合要求，這樣才能為試題的信度提供有力的支撐。

確保試題沒有偏頗性。要確保試題沒有偏頗性，需要從多方面考慮，如考生的年齡、性別、所處區(qū)域等。也就是說，考試內容不偏向任一性別的考生、不偏向任一區(qū)域的考生，做到客觀、公平。

制定詳盡、可操作性強的評分標準。如果試卷中有主觀題，尤其是寫作類的題型，那么就需要制定一個客觀、詳盡、合理、操作性強的評分標準，使評分員能夠很好地把握評分標準，從而客觀、公正地評分。

培訓評分員。在評分標準合格的情況下，對評分員的培訓也很重要，也是提高測試信度的一個方法。評分標準擬好并不意味著萬事大吉，評分員對評分標準的理解和把握程度，以及評分員對閱卷工作的責任心和使命感也是不可忽視的。因此，在評分工作開始前，對評分員的培訓必不可少。

三、效度和信度的矛盾和平衡

語言測試的效度和信度是英語測試中非常重要的兩個評價指標，它們各有側重又相輔相成，聯(lián)系密切。效度強調測試達到預期測試目的，信度強調測試和考分一致，一份設計良好的試題要求二者兼顧。然而，效度和信度之間又存在對立關系。效度高則意味著主觀題的題目比例會較大，這樣勢必會削弱試題的信度，然而信度高的試題不一定效度就高。例如，英語測試中的選擇題是保證高信度的一種題型，但如果選擇題過多，效度則無法保證，因為很多有關學生語言運用、語言交際、語用能力等的內容是無法通過選擇題來考查的。

效度和信度的對立統(tǒng)一使命題者命制一份效度和信度都相當高的試題變得非常難，所有的命題者都需要在二者之間尋求平衡。效度和信度應該優(yōu)先考慮哪一個是很多語言測試專家一直在研究的問題。

結? 語

很多專家認為，就我國英語教學現(xiàn)狀和學生學習現(xiàn)狀而言，應優(yōu)先考慮效度，然后在此基礎上盡量增加試卷的信度。這樣做會給目前的中學英語教學帶來積極的影響，能更加有效地促進英語教學改革，使學生應用語言的能力得到提高。將效度放在首位，盡量增加信度，將成為現(xiàn)代語言測試的發(fā)展趨勢和改革方向。

[參考文獻]

李筱菊.語言測試科學與藝術[M].長沙：湖南教育出版社，2001.

劉潤清，韓寶成.語言測試和它的方法（修訂版）[M].北京：外語教學與研究出版社，2000.

鄒申.語言測試[M].上海：上海外語教育出版社，2005.

潘鳴威，徐雯，馮豫，等.從考試命題邁向科學測評[M].北京：人民教育出版社，2021.

作者簡介：劉永?。?968.3-），男，山西絳縣人，

現(xiàn)任英語周報社總編輯，研究生學歷，副編審。