GMAT綜合推理試題的研發(fā)及效度驗證

2016-06-05 14:19:55郭凡民孟匯涓HanKyungChrisTyekTalentoMillerEileen

中國考試 2016年11期

郭凡民孟匯涓 Han Kyung （Chris）Tyek Talento-Miller Eileen

郭凡民孟匯涓 Han Kyung （Chris）Tyek Talento-Miller Eileen

美國管理類研究生招生理事會在充分調(diào)研成功完成商學(xué)院核心課程所需要的學(xué)業(yè)技能的基礎(chǔ)上，歷時7年完成GMAT綜合推理試題的研發(fā)，于2012年正式推出新版GMAT考試。本文介紹綜合推理試題的研發(fā)過程，并通過具體數(shù)據(jù)展示其考試效度，希望可以為考試主辦方開發(fā)考試、設(shè)計創(chuàng)新題型以及進行效度研究提供參考。

考試開發(fā)；效度驗證；創(chuàng)新題型；GMAT

美國管理學(xué)研究生入學(xué)考試（Graduate Manage?ment Admission Test，GMAT）是專門用來測試商學(xué)院申請人學(xué)業(yè)能力的一項標(biāo)準(zhǔn)化考試，它的主辦機構(gòu)是美國管理類研究生招生理事會（Graduate Man?agement Admission Council，GMAC），其考試內(nèi)容由GMAC組織各大商學(xué)院的教授集體擬定，旨在為商學(xué)院篩選申請人提供客觀、科學(xué)、有效的考查標(biāo)準(zhǔn)，并對學(xué)生在入學(xué)以后學(xué)業(yè)成功與否作出可靠的預(yù)測。GMAT自1953年問世以來，經(jīng)歷了許多變化，從筆試到機考，從固定試卷到使用題庫，從單一難度試卷到為不同能力的考生量體裁制的自適應(yīng)考試，但它的測評宗旨從未改變。GMAC和不同商學(xué)院合作共完成1 241個研究報告，它的考試效度被屢屢證實，它的考試結(jié)果也得到越來越多商學(xué)院的認(rèn)可。到目前為止，全球共有114個國家、2 100多所大學(xué)、6 000多個工商管理專業(yè)使用GMAT的考試分?jǐn)?shù)作為錄取學(xué)生的標(biāo)準(zhǔn)之一。

2012年6月5日，GMAC宣布GMAT在已有的文本推理（Verbal Reasoning）、定量推理（Quantita?tive Reasoning）和分析性寫作（Analytical Writing）3部分考查內(nèi)容之外，增加綜合推理（Integrated Rea?soning，IR）部分，以此來測量考生對不同來源、多種形式的信息進行分析評估的能力。這一部分的考題大多使用創(chuàng)新題型（非傳統(tǒng)的單項選擇題），開發(fā)實施成本很高，題目撰寫費時費力，數(shù)據(jù)采集分析難度也大于其他部分的試題。GMAC為什么在GMAT早已成熟并為廣大商學(xué)院認(rèn)可的形勢下要做如此重大的改變？他們通過怎樣的研發(fā)過程來保證這一部分試題的有效性？4年過去了，大量的考試數(shù)據(jù)能否證實綜合推理在GMAT效度中占有一席之地？這是本文所要回答的問題。

1 GMAT增加綜合推理的緣由

1.1 舊版GMAT考試信度與效度

舊版GMAT包括定量推理、文本推理和分析性寫作3部分（見表1），考試時間為3小時30分鐘。這一考試結(jié)構(gòu)確定于1997年GMAT首次使用題庫的計算機自適應(yīng)考試（Computerized Adaptive Test?ing，CAT），此后15年從未改變。GMAT考試分?jǐn)?shù)非常穩(wěn)定可靠，定量推理的平均信度為0.9，文本推理為0.89，分析性寫作的評分者信度（Rater Reliability）為0.88[1]，而總量表分?jǐn)?shù)（包含定量推理和文本推理兩項分?jǐn)?shù)）的信度則高達(dá)0.92，充分滿足了GMAC為商學(xué)院招生提供有效成績所需要的前提條件。

GMAC為全球諸多商學(xué)院完成了407份舊版GMAT的效度研究報告。在這些報告中，GMAT考試分?jǐn)?shù)和學(xué)生的本科平均成績（Undergraduate Grade Point Average，UGPA）被用來預(yù)測商學(xué)院研究生入學(xué)以來累計的平均成績（GPA），GMAT總量表分?jǐn)?shù)預(yù)測效度普遍高于學(xué)生的本科平均成績預(yù)測效度。

此外，作為一個全球性的考試，為了保證其公平性，GMAT的每一道題在正式使用進入計分之前都需要預(yù)測試。通過大數(shù)據(jù)分析結(jié)果剔除表現(xiàn)不好的試題，以保證在同等能力的前提下，試題分?jǐn)?shù)不會因為考生在性別、地域、語言文化上的不同而出現(xiàn)系統(tǒng)性的偏差，從而使某一群體的考生處于不利或有利狀態(tài)。

所有這些分析研究結(jié)果表明，舊版GMAT自問世以來，在很長一段時間內(nèi)都滿足了商學(xué)院擇優(yōu)招生的需求，與其他錄取條件（如本科成績、推薦信、個人陳述等）相比，它的分?jǐn)?shù)為校方比較申請人提供了一個公平、客觀、穩(wěn)定、有效的量化指標(biāo)。

1.2 GMAT改革：緣起與前瞻

進入21世紀(jì)，信息科學(xué)和電腦技術(shù)呈現(xiàn)加速發(fā)展，高等教育中與科技密切相關(guān)的商業(yè)學(xué)科自是首當(dāng)其沖，在課程結(jié)構(gòu)和專業(yè)設(shè)置上都呈現(xiàn)出比較明顯的變化[2]。很多商學(xué)院在傳統(tǒng)的MBA專業(yè)中增添了綜合性課程以及團隊教學(xué)等元素，同時，為了滿足不同行業(yè)、不同層次對管理人才的需求，專業(yè)類碩士（如會計、金融、市場營銷等）及高級管理人員商科碩士（Executive MBA）等學(xué)位應(yīng)運而生。針對這些變化，GMAC從2005年起就開始了一系列的前瞻研究，評估GMAT試題所考查的技能在當(dāng)下是否依然有效。

2005年4月至2006年8月，GMAC委托美國大學(xué)入學(xué)考試中心（ACT）開展了一項研究，來自北美233個管理專業(yè)的844名教授共同評定了成功完成商科第一年核心課程所需要的知識和技能。這個研究使用的方法與美國1999年版《教育與心理測量標(biāo)準(zhǔn)》（Standards for Educational and Psychological Testing）一書中所推薦的效度驗證方法相吻合，它的結(jié)果為GMAC勾描出商科核心課程與學(xué)生必備的知識和技能之間的連接路徑，并為新版GMAT技能問卷調(diào)查的擬定提供了堅實的基礎(chǔ)。

表1 舊版GMAT考試結(jié)構(gòu)

2008年6月，針對歐洲國家新興的專業(yè)類碩士，GMAC委托荷蘭國際教育測量研究院（Cito）對10個歐洲國家、39所商學(xué)院的135個專業(yè)的核心課程進行了調(diào)查，從中分析提煉出它們在教學(xué)上所側(cè)重的共同的內(nèi)容[3]。這個研究報告的結(jié)果提高了新版GMAT技能問卷調(diào)查內(nèi)容的廣度，為GMAT在全球范圍內(nèi)服務(wù)于傳統(tǒng)的MBA和新興的專業(yè)類碩士招生工作增添了有力的效度證據(jù)。

在2006年及2008年兩項研究的基礎(chǔ)上，結(jié)合舊版GMAT的考試大綱，2009年GMAC再次授權(quán)ACT完成了一次大規(guī)模問卷調(diào)查，來自全球740多名商學(xué)院的教授共同審評了成功完成商學(xué)院核心課程所需要的學(xué)業(yè)技能。教授們的評分確認(rèn)了文本推理、定量推理以及分析性寫作內(nèi)容的有效性。同時，舊版GMAT試題沒有涵蓋或未能有效測量的技能浮出水面（見表2），這些技能是近10年以及未來15年商學(xué)院學(xué)生學(xué)習(xí)和工作必須掌握的新技能，其重要性評分不遜于其他部分考查技能在調(diào)查中得到的分?jǐn)?shù)。

表2 商科研究生學(xué)業(yè)成功需要的新技能

2 GMAT綜合推理試題開發(fā)

2.1 機遇與挑戰(zhàn)

表2表明，21世紀(jì)的商科人才需要具有對海量信息做高效分析以解決復(fù)雜問題的能力。2009年的問卷調(diào)查結(jié)果為GMAT改革指明了方向，GMAC作為眾多商學(xué)院所信賴的服務(wù)機構(gòu)，無疑面臨著考試開發(fā)的巨大挑戰(zhàn)。這一挑戰(zhàn)表現(xiàn)在：第一，考試行業(yè)對文本和定量推理以及分析性寫作能力的測評已有多年歷史，從試題的內(nèi)容、形式、數(shù)據(jù)分析到最終評分，方方面面都積累了大量經(jīng)驗，而對多源信息綜合處理能力在標(biāo)準(zhǔn)化考試中的使用則是一個從未有人涉及的領(lǐng)域?？上攵?，從抽象的對認(rèn)知能力的描述到撰寫客觀有效的試題之間是一段不易的路途。第二，雖然Pearson VUE（負(fù)責(zé)在世界各地發(fā)送GMAT的公司）是計算機考試行業(yè)中的佼佼者，但其當(dāng)時的系統(tǒng)內(nèi)并沒有適合此類試題的模板及相對應(yīng)的數(shù)據(jù)采集功能，這項開發(fā)的投入成本相當(dāng)可觀。第三，GMAT是一項有半個世紀(jì)歷史的優(yōu)質(zhì)考試，從內(nèi)容結(jié)構(gòu)到分?jǐn)?shù)的區(qū)間分布早已為全球各大商學(xué)院所熟悉。如果在考試中加入太多新元素，會不會讓學(xué)校錄取部門對使用GMAT分?jǐn)?shù)篩選申請人這種方法敬而遠(yuǎn)之？

面對這些困難和潛在風(fēng)險，GMAC的決策者決定順應(yīng)變化進行改革。他們把這些挑戰(zhàn)當(dāng)作GMAT優(yōu)化發(fā)展的一次重大機遇。如果成功，這些改變會使GMAT更加全面地考核那些與商科碩士專業(yè)相關(guān)的知識和技能，提高考試效度，更好地為商學(xué)院選拔學(xué)生服務(wù)。同時，機考創(chuàng)新題型的開發(fā)使用可以讓GMAC一如既往地走在測試行業(yè)的最前沿，為其他考試機構(gòu)提供可以借鑒的寶貴經(jīng)驗。

2.2 研發(fā)過程

從2009年6月GMAC采取問卷調(diào)查確定新增內(nèi)容，到新版GMAT正式啟動歷時3年多，經(jīng)歷了4個階段，見圖1。

圖1 新版GMAT研發(fā)階段

針對在第一階段建構(gòu)研究中確認(rèn)的4項新技能，GMAC、ACT（負(fù)責(zé)試題開發(fā)）和Pearson VUE（負(fù)責(zé)試題發(fā)送）3個公司從2009年末開始了綜合推理考試的研發(fā)工作。GMAC希望通過綜合推理試題考查考生對復(fù)雜信息進行思辨、綜合、歸納、推理的能力，而已有的GMAT題型（單項選擇題）無法滿足這個測試需求。此外，對這種能力的測試從未出現(xiàn)在其他同類計算機考試中，沒有人清楚何種形式的試題既適合機考又可以準(zhǔn)確地測試新增技能。因此，開發(fā)團隊首先詳細(xì)地定義了新技能和其可能對應(yīng)的考核途徑，瀏覽了Pearson VUE機考平臺中已有的創(chuàng)新題型模板，借鑒心理認(rèn)知理論和教育測量理論設(shè)計了15種全新題型。通過受試者有聲思考（Think Aloud）和兩次試測結(jié)果，開發(fā)團隊最后確定了綜合推理試題包括表格分析、二段式分析、圖表解讀和多信息源推理4種題型（具體樣題可見GMAC官網(wǎng)），并在2011年7月至8月完成了題庫建設(shè)。

為了保證新題型研發(fā)的質(zhì)量和效率，GMAC制定了一套評估新題型的標(biāo)準(zhǔn)。主要有以下幾點：

（1）測試新增技能：開發(fā)團隊讓受試者一邊解題，一邊說出他/她對試題的理解、思索問題時使用的信息來源，以及回答問題時考慮到的各種因素。通過他們的具體反饋，命題專家確定每種新題型測試的潛在建構(gòu)，從而作出選擇。

（2）利用機考優(yōu)點：入圍題型充分體現(xiàn)計算機的優(yōu)勢，具有在紙筆考試中難以完成的特性。如在表格分析題目中，考生可以使用電子表格的排序功能來排列信息，這是商科人士日常辦公中經(jīng)常使用到的功能，卻只能在機考中實現(xiàn)。這些題型特有的內(nèi)容和形式極大程度地提升了GMAT的表面效度和內(nèi)容效度。

（3）方便記分：是否可以清晰準(zhǔn)確地評分是GMAC選擇題型的另一重要標(biāo)準(zhǔn)。因為計算機的強大功能，機考題型可以非常新穎復(fù)雜，實現(xiàn)人機時時互動。但是這樣的試題在自動評分、其分?jǐn)?shù)的效度和解讀上往往存在很多問題，限制了它們在GMAT這一類考試中的使用。

（4）有效防止舞弊：題目的信息量大、頭緒多，并且較為復(fù)雜，考生需要在有限的時間內(nèi)厘清關(guān)系，提取有用信息來回答問題。這一類試題不太容易被復(fù)述下來或者通過幾個關(guān)鍵詞記住題干和答案，這樣可以較好地控制在高風(fēng)險標(biāo)準(zhǔn)化考試中的偷題現(xiàn)象。

（5）有效區(qū)分考生水平且無偏差：GMAC在2010年和2011年收集了大量的試測數(shù)據(jù)，分析總結(jié)每一類試題的難度、區(qū)分度、所用時間，與舊版GMAT分?jǐn)?shù)的相關(guān)系數(shù)，以及就性別、語言、國籍得到的試題功能差異指標(biāo)（DIF）。這些結(jié)果為開發(fā)團隊甄選題型提供了客觀標(biāo)準(zhǔn)。

（6）可以大量出題且經(jīng)濟可行：比起文本和定量推理試題，綜合推理題目更加復(fù)雜，實施成本也高出許多。另外，GMAT每年考生人數(shù)可觀，為了保證考試公平，GMAC需要定期更新題庫，因此試題的需求量很大。基于這些原因，最終入選的綜合推理題型普遍具有容變性強、在計算機上易于實現(xiàn)的特點。

根據(jù)2011年試題預(yù)測結(jié)果，開發(fā)團隊初步擬定了綜合推理部分的考試設(shè)計，包括內(nèi)容、比重、題目數(shù)量、難度和區(qū)分度的統(tǒng)計指標(biāo)以及考試時間。2012年1月進行整卷試測，建立了量表分?jǐn)?shù)。新版GMAT于2012年6月正式啟用，這是GMAC歷史上第10次重大的考試變革。在綜合推理題型（12題30分鐘）啟用的同時，分析性寫作題目數(shù)量由2篇減為1篇，時間縮短為30分鐘[4]，故考試總體時間沒有改變。綜合推理沒有采取自適應(yīng)考試的選題模式，而是使用了傳統(tǒng)的線性設(shè)計，通過等值將試卷原始分?jǐn)?shù)轉(zhuǎn)換為量表分?jǐn)?shù)。

3 GMAT綜合推理試題的效度研究

GMAC 3次大規(guī)模的問卷調(diào)查以及對綜合推理試題的有聲思考結(jié)果，從定性的角度反映了GMAT考試的構(gòu)建效度。圍繞新增的綜合推理試題，GMAC也做了很多從定量角度出發(fā)的效度研究。

3.1 內(nèi)部相關(guān)系數(shù)（Internal Correlation）分析

這類研究主要是分析考試各部分之間的相關(guān)性。表3是新版GMAT考試各部分分?jǐn)?shù)的相關(guān)系數(shù)。綜合推理的分?jǐn)?shù)和已有的文本推理、定量推理、分析性寫作分?jǐn)?shù)以及量表總分均呈現(xiàn)出中等程度或中等偏下的正向相關(guān)，這也是測試專家希望看到的結(jié)果。如果它們之間的相關(guān)系數(shù)過高，增加綜合推理考試就不可能提供新信息，它就沒有存在的必要。

表3 新版GMAT各項分?jǐn)?shù)的相關(guān)系數(shù)（美國考生）

3.2 考試維度分析

主成分分析（Principal Component Analysis）和驗證性因子分析（Confirmatory Factor Analysis）都是從眾多變量中提取共同因子的統(tǒng)計技術(shù)，它們常常被用來驗證考試的維度，通過分析試題分?jǐn)?shù)或各項內(nèi)容的分?jǐn)?shù)來確定整個考試所考查的是否是同一領(lǐng)域中的知識和技能。舊版GMAT中兩大核心部分是定量推理和文本推理，它們之間有關(guān)聯(lián)但各有側(cè)重，所以兩維模型可以很好地解釋數(shù)據(jù)。綜合推理試題開發(fā)出來后，GMAC需要檢測這部分是否可以在定量推理和文本推理之外構(gòu)成一個單獨的維度，哪些試題最大程度地支持這個維度，它和已有的兩部分又有怎樣的關(guān)系。針對這些問題，GMAC使用2012年11月的實測數(shù)據(jù)對新版GMAT進行了維度分析。

因為綜合推理部分是以固定試卷的模式發(fā)送考試，數(shù)據(jù)相對工整，而定量推理和文本推理兩部分是自適應(yīng)考試，考生數(shù)據(jù)里有很多題目沒有分?jǐn)?shù)（見圖2中的A），已有的題目分?jǐn)?shù)也受限于CAT獨特的選題方法，在分析中不能簡單地計算并使用定量推理和文本推理部分中每項考查內(nèi)容的原始分?jǐn)?shù)（答對題目總數(shù)），它們之間的協(xié)方差也比較低。通過使用題目的IRT參數(shù)，GMAC計算了單項內(nèi)容的能力分?jǐn)?shù)θ，從而獲得了可以用在主成分分析和因子分析中的完整數(shù)據(jù)（見圖2中的B）。加灰部分是回答某一套綜合推理試卷的所有考生的各項分?jǐn)?shù)，無一疏漏。這種方法也曾被用在其他自適應(yīng)考試的建構(gòu)效度研究中[5]。

圖2 新版GMAT數(shù)據(jù)結(jié)構(gòu)

與其他研究不同的是，GMAC沒有使用已有題目參數(shù)，而是將數(shù)據(jù)按單項內(nèi)容分開，在每個內(nèi)容下重新估計試題參數(shù)，然后計算能力分?jǐn)?shù)θ。這樣做是因為在估算每部分題目參數(shù)時，所有的試題都被假定為測試同一種能力（定量推理或文本推理）。在單維IRT模型下，不同題目所測試的技能和它們之間的關(guān)系有可能被削弱并簡單化。而在每個部分每個內(nèi)容下單獨估算題目參數(shù)從理論上來說弱化了這種影響，使維度分析更精確。

在主成分分析中[6]，二維和三維模型被用來定義數(shù)據(jù)（定量推理和文本推理單項內(nèi)容的能力分?jǐn)?shù)和每個綜合推理試卷上的試題分?jǐn)?shù)）。表4是主成分在單項內(nèi)容和每道綜合推理試題上的負(fù)荷。毋庸置疑，三維模型可以幫助我們更好地解釋數(shù)據(jù)里的變化（方差總量從39.6%增加到52.0%）。不少綜合推理試題在二維模型下的主成分負(fù)荷都小于0.3（可接受范圍的分界點），而在三維模型下，通過極大旋轉(zhuǎn)（Varimax），它們明顯附著于第三個成分，并和其他兩個主成分涇渭分明。

在主成分分析結(jié)果的基礎(chǔ)上，GMAC進一步從不同角度（考查內(nèi)容、認(rèn)知能力、題目類型）對數(shù)據(jù)進行了因子分析[7]。如圖3是從綜合推理考查內(nèi)容角度勾畫的內(nèi)部結(jié)構(gòu)：兩項內(nèi)容，一項和數(shù)學(xué)有關(guān)，一項和數(shù)學(xué)無關(guān)，而驗證性因子分析的結(jié)果可以幫助我們了解綜合推理這兩項內(nèi)容與文本推理及定量推理之間的關(guān)系。

在GMAT的結(jié)構(gòu)方程模型（Structural Equation Modeling，SEM）中，所有的因子之間可以有關(guān)聯(lián)，文本推理和定量推理單項內(nèi)容的能力分?jǐn)?shù)被作為因子分?jǐn)?shù)，它們的方差被固定為1。根據(jù)分析角度的不同，Han共計算出三組綜合推理潛在因子[7]。圖4中綜合推理部分的因子（IR_A1和IR_A2）是根據(jù)不同考查內(nèi)容下的試題分?jǐn)?shù)計算出來的。

表4 新版GMAT主成分分析對比

表5是圖4模型下的分析結(jié)果，文本推理與定量推理各自的因子之間的相關(guān)系數(shù)普遍很高（最小的為0.58），為它們使用IRT模型滿足單維假設(shè)提供了證據(jù)。在綜合推理下，與數(shù)學(xué)相關(guān)的試題（IR_A2）可以比較有效地同時測試文本推理和定量推理的能力，而與數(shù)學(xué)無關(guān)的試題（IR_A1）所考查的更多的是文本推理方面的能力。

圖3 新版GMAT內(nèi)部結(jié)構(gòu)（A：考查內(nèi)容；C：認(rèn)知能力；T：題型）

圖4 新版GMAT結(jié)構(gòu)方程模型（綜合推理分析角度：考查內(nèi)容）

表5 新版GMAT潛在變量之間的關(guān)聯(lián)：從綜合推理考查內(nèi)容角度分析

表6中綜合推理的潛在因子是從認(rèn)知能力的角度計算出來的，它們之間關(guān)聯(lián)度很高（0.65～0.89），說明考生在回答綜合推理問題時所需要的認(rèn)知能力大體在同一范疇內(nèi)。它們與文本推理的因子之間相關(guān)系數(shù)比較高（0.54～0.63），但與定量推理的分?jǐn)?shù)因子之間的相關(guān)系數(shù)普遍較低。這個結(jié)果與綜合推理考試目的相吻合。畢竟不論測試的是哪種能力，對多源信息的綜合處理首先是建立在讀懂信息的基礎(chǔ)之上的。

表6 新版GMAT潛在因子之間的關(guān)聯(lián)：從綜合推理的認(rèn)知能力角度分析

表7中綜合推理的潛在因子是從試題類型的角度計算出來的，結(jié)果和表6相似：4種題型之間高度相關(guān)（0.70～0.91），它們與文本推理的因子相關(guān)度也比較高（0.55～0.63）。其中兩種題型與定量推理的因子呈中度關(guān)聯(lián)（0.44～0.60），另外兩種結(jié)果偏低（0.22～0.40）。

這些驗證性因子分析的結(jié)果為GMAC從各個層面理解綜合推理的試題以及確定考查內(nèi)容和試題題型在考試中的比重分布提供了重要依據(jù)。

3.3 預(yù)測效度（Predictive Validity）分析

自2012年6月新版GMAT正式使用以來，GMAC與北美、歐洲及亞洲各大商學(xué)院合作，共進行了25項包括綜合推理分?jǐn)?shù)的預(yù)測效度研究，用商學(xué)院在讀學(xué)生GMAT的各項成績和本科平均成績（UGPA）來預(yù)測他們?nèi)雽W(xué)后半年至一年內(nèi)的GPA。在這類研究中，預(yù)測效度系數(shù)就是預(yù)測變量和GPA之間的相關(guān)系數(shù)。對于錄取類的測試，相關(guān)系數(shù)在0.3～0.4就可以被用作考試預(yù)測有效的證據(jù)[8]。

表7 新版GMAT潛在因子之間的關(guān)聯(lián)：從綜合推理的試題類型角度分析

因為商學(xué)院錄取的學(xué)生只是所有申請人中的少數(shù)，從學(xué)業(yè)表現(xiàn)來說，他們大多聚集在這個群體中的上端，有著相似的GMAT成績和UGPA，在很大程度上縮減了GPA中的方差并限制了預(yù)測效度系數(shù)，因此研究者們一般會用公式調(diào)整變量之間的相關(guān)系數(shù)，借以還原真實完整的考生群體數(shù)據(jù)。在這個公式中，rij和r*ij分別是變量之間原始相關(guān)系數(shù)和調(diào)整之后的相關(guān)系數(shù)，U等于全體考生與商學(xué)院考生GMAT分?jǐn)?shù)或UGPA的標(biāo)準(zhǔn)方差之間的比率（U≥1）。

圖5 預(yù)測變量預(yù)測效度中位值

GMAC還使用多元回歸分析方法計算綜合推理可以多大程度地提高GMAT在UGPA之外預(yù)測學(xué)生GPA的能力。如表8（摘自某商學(xué)院2014年GMAT效度研究）所示，單獨使用UGPA預(yù)測效度系數(shù)是0.28，如果加入綜合推理分?jǐn)?shù)，預(yù)測系數(shù)升到0.44；如果在UGPA外加入文本推理、定量推理和寫作，預(yù)測系數(shù)則升到0.47，再加入綜合推理，預(yù)測系數(shù)提升到0.51?？紤]到綜合推理試卷只有12道試題，考試時間只有30分鐘，它對預(yù)測系數(shù)的提高已非?？捎^。

圖6是這些變量在解釋GPA數(shù)據(jù)方差總量中所占的比例。其中，綜合推理高出UGPA 10個百分點，高出分析性寫作14個百分點，僅比GMAT總量表分?jǐn)?shù)（150分鐘，共88道題）低8個百分點。這從另一個角度展示了綜合推理在預(yù)測效度中的作用。

在這些預(yù)測效度分析之外，GMAC又針對性別、地域以及不同本科專業(yè)的學(xué)生做了同樣的分析，這些結(jié)果可以幫助商學(xué)院錄取學(xué)生時作出更精準(zhǔn)的判斷。

圖6 預(yù)測變量在解釋GPA方差中所占的比例

4 總結(jié)

綜合推理試題在GMAT考試中已正式使用近4年，它對商科學(xué)生學(xué)業(yè)的預(yù)測能力逐漸為各大商學(xué)院所認(rèn)可。2016年3月GMAC在為美國6所著名大學(xué)EMBA申請人量身定做的入學(xué)考試（Executive Assessment）中，綜合推理的試題數(shù)量及考試時間已與文本推理、定量推理基本相當(dāng)，進一步表明了商科教授對這部分測試內(nèi)容的重視。另外，據(jù)GMAC在2013年對商學(xué)院校友的調(diào)查報告，善于使用綜合推理能力在職場中至關(guān)重要，它們在工作中被使用的頻率明顯影響到商科人士收入的高低。這些研究結(jié)果及市場反饋肯定了GMAT改版的前瞻性和必要性，也證實了綜合推理考試設(shè)計和創(chuàng)新題型研發(fā)的成功性。本文希望可以為其他考試機構(gòu)開發(fā)考試、設(shè)計創(chuàng)新題型，以及進行效度研究提供一些可以借鑒的經(jīng)驗。

表8 綜合推理考試對預(yù)測效度的提高

參考文獻(xiàn)

[1]SIEGERT K O，GUO F.Assessing the reliability of GMAT Analyti?cal Writing Assessment:GMAC Research Report，RR-09-02[R]. McLean，VA:Graduate Management Admission Council，2009.

[2]DUMAS C，BLODGETT M，CARLSON P，PANT L，VENKATRA?MAN M.Revitalizing the MBA for the new millennium:A collabora?tive action research approach[J].International Journal of Value-Based Management，2000，13（3）:229-253.

[3]LOADES R.A Review of the Curricula of 135 European Pre-Experi?ence Master Degree Programmes:GMAC Research Report，RR-09-11[R].McLean，VA:Graduate Management Admission Council，2009.

[4]GAO X，BRENNAN R L，GUO F.Modeling Measurement Facets and Assessing Generalizability in a Large-scale Writing Assess?ment:GMAC Research Report，RR-15-01[R].Reston，VA:Grad?uate Management Admission Council，2015.

[5]WANG S，MCCALL M，JIAO H，HARRIS G.Construct validity and measurement invariance of computerized adaptive testing:Ap? plication to Measures of Academic Progress（MAP）using confirma?tory factor analysis[J].Journal of Educational and Developmental Psychology，2013，3（1）:88.

[6]GUO F.Principal Component Analyses on the GMAT with Integrat?ed Reasoning:Assess the Underlying Statistical Structure of Your Test in order to Optimize Design and Scores[C].Scottsdale，AZ，2014.

[7]HAN K T.Using structural equation modeling approach to investi?gate latent factor structure across subtests:Assess the Underlying Statistical Structure of Your Test in order to Optimize Design and Scores[C].Scottsdale，AZ，2014.

[8]KAPLAN R，SACUZZO D.Psychological testing:Principles，appli?cations，and issues（4th ed.）[M].Pacific Grove，CA:Brooks/Cole，1997.

[9]HUNTER J，SCHMIDT F.Methods of meta-analysis:Correcting er?ror and bias in research findings[M].Newbury Park，CA:Sage，1990.

GMAT Integrated Reasoning Section:Design and Development

GUO Fanmin，MENG Huijuan，HAN Kyung（Chris）Tyek&TALENTO-MILLER Eileen

Based on the thorough surveys and investigations，Graduate Management Admission Council（GMAC）identified the academic abilities that business school students would need to successfully complete the graduate business school core curriculum.After 7 years’design，development，and research，in June 2012，GMAC added Integrated Reasoning，a new section with all newly designed innovative items，to the existing exam.This paper presents the research and development process of this section，and demonstrates its test validity through concrete evidences，hoping to shed lights on test development，innovative item design，and validity study.

Test Development;Validation;Innovative Item;GMAT

G405

1005-8427（2016）11-0003-10

（責(zé)任編輯：陳睿）

郭凡民，男，博士，美國管理類研究生招生理事會，副總裁（美國弗吉尼亞州 22190）

孟匯涓，女，博士，美國管理類研究生招生理事會，高級心理測量師（美國弗吉尼亞州 22190）

HanKyung（Chris）Tyek，男，博士，美國管理類研究生招生理事會，高級心理測量師（美國弗吉尼亞州 22190）

Talento-Miller Eileen，女，博士，美國管理類研究生招生理事會，高級心理測量師（美國弗吉尼亞州 22190）