杜國平
(中國社會(huì)科學(xué)院哲學(xué)研究所,北京 100732)
圖形推理在測(cè)量學(xué)上的理論來源主要是文化公平性的要求。一般的借助特定語言表達(dá)的測(cè)試,對(duì)于不同的測(cè)試者而言,以該語言為母語和非母語的測(cè)試者由于受不同文化背景的影響,往往不能公平地測(cè)試出被試實(shí)際的能力水平,尤其是不能準(zhǔn)確體現(xiàn)兩者之間實(shí)際的能力差異。例如,使用一套英語的GRE測(cè)試題來比較中、英學(xué)生的一般學(xué)業(yè)能力,對(duì)于漢語考生不夠公平;使用一套日語的寫作試題來比較日、俄學(xué)生的語言表達(dá)能力,對(duì)于俄語考生不夠公平。為了能夠在不同文化間公平地測(cè)試被試的能力水平并進(jìn)行比較研究,人們提出了文化公平測(cè)驗(yàn)的概念,圖形推理是其中一種非常重要的測(cè)試形式。圖形推理在測(cè)量學(xué)上的另一個(gè)理論來源是非言語智力測(cè)驗(yàn),它可以測(cè)量有語言障礙的被試的智力水平,并進(jìn)行相關(guān)比較研究。
目前,國際上的文化公平和非言語測(cè)驗(yàn)中使用圖形推理的測(cè)驗(yàn)主要有:(1)瑞文推理測(cè)驗(yàn);(2)文化公平智力測(cè)驗(yàn);(3)矩陣類比測(cè)驗(yàn);(4)古德依諾-哈里斯畫人測(cè)驗(yàn);(5)納格利爾里非言語能力測(cè)驗(yàn)。
由于圖形推理具有很好的非言語性和文化公平的特點(diǎn),目前在一般的能力測(cè)驗(yàn)中也被廣泛使用。在我國的公務(wù)員招錄考試行政職業(yè)能力測(cè)驗(yàn)、事業(yè)單位職業(yè)能力傾向測(cè)驗(yàn)以及各類企業(yè)招聘考試中都安排有圖形推理模塊的測(cè)試。隨著圖形推理在各類測(cè)驗(yàn)中的廣泛應(yīng)用,亟待加強(qiáng)圖形推理測(cè)驗(yàn)科學(xué)的研究,以便圖形推理這種測(cè)試形式能夠公平、公正、準(zhǔn)確地測(cè)量出被試的相關(guān)推理能力。
本文的核心問題是,在圖形推理測(cè)試題的命制過程中如何提高測(cè)量的區(qū)分度,以達(dá)到區(qū)別被試的推理能力,從而實(shí)現(xiàn)有效選拔的目的。
推理可以分為演繹推理和非演繹推理 (主要有歸納推理和類比推理),相應(yīng)地,推理能力也可以分為演繹推理能力和非演繹推理能力。隨之而來的一個(gè)問題就是,試題測(cè)量的區(qū)分度和試題的類型 (演繹推理題型和非演繹推理題型)是否相關(guān)?或者說,不同題型之間區(qū)分度是否存在差異?另外一個(gè)值得探究的問題是:圖形推理測(cè)試題的難度和區(qū)分度之間是否存在相關(guān)性?如果存在相關(guān)性,它們是如何相關(guān)的?
為此,我們借用了某省行測(cè)試題作為3種類型的測(cè)試題。一種是演繹推理能力測(cè)試題,一種是歸納推理能力測(cè)試題,還有一種是綜合推理能力測(cè)試題。
演繹推理能力測(cè)試題的具體測(cè)試形式是:
題型Ⅰ 左邊給定的是紙盒外表面的展開圖,右邊哪一項(xiàng)能由它折疊而成?請(qǐng)把它找出來。
該題型的左邊實(shí)際上給定了推理的前提條件,即4個(gè)面上的不同圖案和4個(gè)面之間的位置關(guān)系;題目要求實(shí)際上相當(dāng)于給出了推理的規(guī)則,即空間變換的規(guī)則;答案實(shí)際上是推理的結(jié)論。根據(jù)推理的前提條件和推理規(guī)則,其答案是精確的、唯一確定的。所以,該題型考察的是被試的演繹推理能力。
歸納推理能力測(cè)試題的具體測(cè)試形式是:
題型Ⅱ 每道題的題干給出一套圖形,其中包括5個(gè)圖,這5個(gè)圖呈現(xiàn)一定的規(guī)律性。選項(xiàng)給出一套圖形,其中有4個(gè)圖,請(qǐng)從中選出唯一的一項(xiàng)作為保持題干5個(gè)圖規(guī)律性的第6個(gè)圖。
該題型主要測(cè)試的是被試的歸納推理能力。圖形主要是由點(diǎn)、線、面構(gòu)成的,要求考生通過觀察左邊題干中的圖形在點(diǎn)、線、面等方面的共同性和差異性,探尋其中的規(guī)律。該題左邊5個(gè)圖形中的封閉區(qū)域數(shù)分別是 7、6、5、4、3 ,按此規(guī)律,第 6 個(gè)圖中的封閉區(qū)域個(gè)數(shù)應(yīng)該是2,答案為C。該題考察的是被試運(yùn)用共變法探求規(guī)律的歸納推理能力。
綜合推理能力測(cè)試題的具體測(cè)試形式是:
題型Ⅲ 右邊四個(gè)圖形中,只有一個(gè)是由左邊的四個(gè)圖形拼合(只能通過上、下、左、右平移)而成的,請(qǐng)把它找出來。
該題型需要觀察左邊4個(gè)圖,特別是其中最大的圖與右邊圖形類比,找出兩者之間的相同之處,涉及類比推理;還需要拼合左邊4個(gè)圖,得出和右邊完全一致的圖形,涉及演繹推理。所以,該題考察的是被試的綜合推理能力。
我們共設(shè)計(jì)了30道圖形推理題,其中題型Ⅰ共15題,題型Ⅱ共9題,題型Ⅲ共6題。為了提高測(cè)試精度,獲得盡可能全面的測(cè)量數(shù)據(jù),我們選取了3個(gè)不同文化層次的被試各二千余人。其中第一個(gè)層次是優(yōu)秀的大學(xué)本科生,第二個(gè)層次是一般的大學(xué)本科生,第三個(gè)層次是一般的大專生。30道題分為A、B、C三組,每組含題型Ⅰ共5題(第6至10題),題型Ⅱ共3題(第 1至3題),題型Ⅲ共2題(第4、5題)。A組題的被試是優(yōu)秀的大學(xué)本科生,B組題的被試是一般的大學(xué)本科生,C組題的被試是一般的大專生。
每組10題作為一個(gè)模塊,分別安排進(jìn)一個(gè)能力傾向測(cè)試(共120題,包括數(shù)學(xué)運(yùn)算、邏輯推理、語言理解與表達(dá))中,測(cè)試數(shù)據(jù)如下:
表1 A組試題的測(cè)試數(shù)據(jù)
表2 B組試題的測(cè)試數(shù)據(jù)
表3 C組試題的測(cè)試數(shù)據(jù)
三組圖形推理共30道題的總體區(qū)分度平均是0.261,其中A組題平均為0.253,B組題平均為0.245,C組題平均為0.284,三組之間差異性不大。三種題型中,題型Ⅱ共9題平均區(qū)分度為0.234,題型Ⅲ共6題平均區(qū)分度為0.245,題型Ⅰ共15題平均區(qū)分度為0.283。由此可見,圖形推理中題型Ⅰ平均區(qū)分度大于題型Ⅲ,而題型Ⅲ的平均區(qū)分度大于題型Ⅱ。這可能與題型Ⅰ、題型Ⅲ答案的確定性、唯一性有關(guān),而題型Ⅱ往往沒有嚴(yán)格的唯一確定的答案,其答案具有一定的模糊性。這從一定程度上說明,不同題型之間區(qū)分度是存在差異的。
30道題的總體難度是0.544,其中A組題難度為 0.526,B組題難度為 0.497,C組題難度為0.608;題型Ⅱ的9題難度為0.505,題型Ⅲ的6題難度為0.633,題型Ⅰ的15題難度為0.514。
30道題的總體標(biāo)準(zhǔn)差平均是0.577,其中A組平均為0.576,B組平均為0.583,C組平均為0.571;題型Ⅱ的9題平均為0.583,題型Ⅲ的6題平均為0.555,題型Ⅰ的15題平均為0.582。
在選拔性考試中,區(qū)分度是衡量一個(gè)圖形推理題的重要質(zhì)量指標(biāo)。除了題型之間區(qū)分度存在差異性之外,區(qū)分度還和哪些因素相關(guān)?下面以上述三組圖形推理測(cè)試數(shù)據(jù)為根據(jù)來分析區(qū)分度和難度之間的相關(guān)性。相對(duì)而言,在實(shí)際命題中,難度比區(qū)分度容易判斷。
30道題難度和區(qū)分度之間的二維散點(diǎn)圖:
通過二階多項(xiàng)式趨勢(shì)線可以看出,難度和區(qū)分度之間存在如下關(guān)系:當(dāng)難度低的時(shí)候區(qū)分度也較低,隨著難度的提升其區(qū)分度也隨之提高,但是達(dá)到一定難度之后,隨著難度的提高,區(qū)分度反而會(huì)逐漸下降。難度在0.57左右的時(shí)候區(qū)分度最好。
30道題難度和區(qū)分度之間的相關(guān)系數(shù)r=0.314,相關(guān)性并不高。如果以難度 0.57 為界(在上述難度序列中,處于0.568和0.579之間),難度低于0.57的前18道題,其難度和區(qū)分度之間的相關(guān)系數(shù)r=0.738,具有較高的正相關(guān)性;難度高于0.57的12道題,其難度和區(qū)分度之間的相關(guān)系數(shù)r=-0.436,具有一定的負(fù)相關(guān)性。這也進(jìn)一步驗(yàn)證了上述對(duì)二維散點(diǎn)圖的有關(guān)分析。
題型Ⅲ的9道題難度和區(qū)分度之間的二維散點(diǎn)圖如下:
通過二階多項(xiàng)式趨勢(shì)線可以看出,難度和區(qū)分度之間也存在類似的關(guān)系。難度在0.59左右的時(shí)候區(qū)分度最好。
題型Ⅱ的9道題難度和區(qū)分度之間的相關(guān)系數(shù)r=0.496,相關(guān)性不高。如果以難度0.59為界(在上述難度序列中,處于0.568和0.594之間),難度低于0.59的前7道題,其難度和區(qū)分度之間的相關(guān)系數(shù)r=0.708,具有較高的正相關(guān)性。
題型Ⅰ的15道題難度和區(qū)分度之間的二維散點(diǎn)圖如下:
通過二階多項(xiàng)式趨勢(shì)線可以看出,難度和區(qū)分度之間也存在類似的關(guān)系。難度在0.65左右的時(shí)候區(qū)分度最好。
題型Ⅰ的15道題難度和區(qū)分度之間的相關(guān)系數(shù)r=0.658,有正相關(guān)性。如果以難度0.65為界(在上述難度序列中,處于0.651和0.767之間),難度高于0.65的前14道題,其難度和區(qū)分度之間的相關(guān)系數(shù)r=0.888,具有較高的正相關(guān)性。
題型Ⅲ的6道題難度和區(qū)分度之間的二維散點(diǎn)圖如下:
題型Ⅲ的6道題難度和區(qū)分度的相關(guān)性存在和上述兩種題型相類似的情況,由于題量較少,不再做進(jìn)一步分析。
30道圖形推理題難度和標(biāo)準(zhǔn)差之間的二維散點(diǎn)圖如下:
通過二階多項(xiàng)式趨勢(shì)線可以看出,難度和標(biāo)準(zhǔn)差之間存在如下關(guān)系:當(dāng)難度低的時(shí)候,標(biāo)準(zhǔn)差也較低;隨著難度的提升,標(biāo)準(zhǔn)差也隨之提高;達(dá)到一定難度之后,隨著難度的提高,標(biāo)準(zhǔn)差又逐漸下降。難度在0.52左右的時(shí)候標(biāo)準(zhǔn)差最大。
30道題難度和標(biāo)準(zhǔn)差之間的相關(guān)系數(shù)r=-0.371,整體呈現(xiàn)一定程度的負(fù)相關(guān)性。但是如果我們以難度0.52為界 (在上述難度序列中,處于0.512和0.534之間),難度低于0.52的前14道題,難度和區(qū)分度之間的相關(guān)系數(shù)r=0.950,具有很高的正相關(guān)性;難度高于0.52的16道題,難度和區(qū)分度之間的相關(guān)系數(shù)r=-0.975,具有很高的負(fù)相關(guān)性。這也進(jìn)一步驗(yàn)證了上述對(duì)二維散點(diǎn)圖的有關(guān)分析。
通過上述分析,可以得出如下幾點(diǎn)啟示:
1.答案唯一確定的圖形推理題型,測(cè)試效果較好。這要求在命題中,題目的答案應(yīng)盡可能精確,無歧義。
2.圖形推理題型的難度和區(qū)分度之間存在一定的相關(guān)性,不同題型的最大相關(guān)點(diǎn)不同。題型Ⅱ的最大相關(guān)點(diǎn)在難度0.59左右,題型Ⅰ的最大相關(guān)點(diǎn)在難度0.65左右,題型Ⅲ的最大相關(guān)點(diǎn)在難度0.60左右。在實(shí)際命題中,可以通過控制題目的難度來提高題目的區(qū)分度。
3.圖形推理題型的難度和標(biāo)準(zhǔn)差之間存在相關(guān)性。以難度0.52為界,當(dāng)難度低于0.52時(shí),呈現(xiàn)很高的正相關(guān)性;當(dāng)難度高于0.52時(shí),呈現(xiàn)很高的負(fù)相關(guān)性。
注釋:
(1)之所以3種題型的題量不一樣,是為了兼顧實(shí)際測(cè)試的需要。但是因?yàn)檠芯克治龅臄?shù)據(jù)是測(cè)量的平均指標(biāo),所以對(duì)研究結(jié)論的影響不大。