劉照宇
(南京師范大學(xué) 體育科學(xué)學(xué)院,南京 210046)
體育科學(xué)定量研究中測驗(yàn)的信度與效度分析
劉照宇
(南京師范大學(xué) 體育科學(xué)學(xué)院,南京 210046)
在體育科學(xué)定量研究中,常需要借助一些測驗(yàn)工具來搜集數(shù)據(jù),而一份優(yōu)良的測驗(yàn)工具必須具備高信度和高效度兩個(gè)特征。分析了信度和效度的內(nèi)涵、特性,重點(diǎn)討論了測量信度和效度常用的方法,及其如何借助SPSS軟件對信度和效度分析。特別指出增進(jìn)信度的方法:清楚地概念化所有的構(gòu)想;增加測量層次;使用多重指標(biāo)來測量一個(gè)變量。最后,分析了信度和效度的關(guān)系。
體育科學(xué);定量研究;問卷;量表;信度;效度
AbstractSports Science Dept.,Nanjing Normal Univ.,Nanjing 210046,China
在體育科學(xué)定量研究中,研究者常需要借助一些測驗(yàn)作為搜集數(shù)據(jù)的工具。而一份優(yōu)良的測驗(yàn)工具必須具備高信度和高效度兩個(gè)特征。如此借由一份具有信度和效度的工具所測量搜集得來的數(shù)據(jù),再利用適當(dāng)?shù)慕y(tǒng)計(jì)方法進(jìn)行分析工作,所得到的結(jié)論,才能為人們所接受。然而許多研究論文在信度和效度的描述中存在概念混亂問題,使用的問卷中含有許多不適宜做重測信度檢驗(yàn)的問題,及效度的評價(jià)過于簡單,不知道還有校標(biāo)效度、結(jié)構(gòu)效度等需要做定量化的考察。
信度即可靠性,它指的是采用同樣的方法對同一對象重復(fù)進(jìn)行測量時(shí),其所得結(jié)果相一致的程度。換句話說,信度是指測量結(jié)果的一致性或穩(wěn)定性,即測量工具能否穩(wěn)定地測量所測的事物或變量。信度是一個(gè)相對概念,并非絕對的有或無,而是一個(gè)程度上或多或少的問題。沒有一測驗(yàn)是絕對可靠的,信度只是告訴我們測驗(yàn)結(jié)果的可信程度。
信度具有以下特性:(1)信度是指測驗(yàn)所得結(jié)果的一致性,而非測量本身。(2)信度值是指在某一特定類型下的一致性,非泛指一般的一致性。信度系數(shù)可能因不同時(shí)間、不同試題或不同評分者而出現(xiàn)不同的結(jié)果,如復(fù)本高,折半未必高。(3)信度是效度的必要條件,非充分條件。信度低效度一定低,但是高信度未必表示具有高效度。(4)信度檢驗(yàn)完全依據(jù)統(tǒng)計(jì)分析方法,不管是采用“信度系數(shù)”還是“測量標(biāo)準(zhǔn)誤”作為測驗(yàn)信度的指標(biāo),它們完全是一種統(tǒng)計(jì)量。
由于信度檢驗(yàn)完全依據(jù)統(tǒng)計(jì)分析方法,因此它必須在測量實(shí)施后,根據(jù)所搜集到的數(shù)據(jù),采用適當(dāng)?shù)姆椒z驗(yàn)測量結(jié)果的信度。當(dāng)然,決定信度最理想的方法是在完全相同的情境下對一組樣本施測兩次,在比較其分?jǐn)?shù)的差異情形,但是事實(shí)上這完全不可能,所以只有找替代的方案。
檢測信度的方法有很多種,主要的方法有重測信度法、折半信度法和 Cronbach’sα系數(shù)法,其中最常用的是第三種Cronbach’sα系數(shù)法,下面簡述各種不同方法的基本含義。
1.2.1 重測信度法
重測信度是以同一測驗(yàn)在不同的時(shí)間對同一樣本施測兩次,計(jì)算兩次測試結(jié)果的相關(guān)系數(shù)。由于它是在檢驗(yàn)樣本經(jīng)過一段時(shí)間后,測驗(yàn)結(jié)果的差異情形,所以它是一個(gè)穩(wěn)定性系數(shù),即跨時(shí)間的一致性。由于重測信度需要對同一樣本測試兩次,而被測容易受到各種事件、活動的影響,所以時(shí)間間隔需要適當(dāng)。較常用者為間隔兩星期或一個(gè)月。
重測信度法適用于事實(shí)性問卷,也可以用于不容易受環(huán)境影響的態(tài)度、意見式問卷。
1.2.2 折半信度法
折半信度法是指將測量項(xiàng)目按奇偶項(xiàng)分成兩半分別計(jì)分,測試出兩半分?jǐn)?shù)之間的相關(guān)系數(shù),再據(jù)此確定整個(gè)測量的信度系數(shù)。折半信度屬于內(nèi)在一致性系數(shù),測量的事兩半項(xiàng)目間的一致性。由于分半信度只是半分測驗(yàn)的信度系數(shù),且在一般情形下,題數(shù)愈多則信度便愈高,因此分半信度通常必須進(jìn)行校正的工作。常用的分半信度校正方法是斯皮爾曼-布朗(Spearman-Brown)校正公式。
折半信度在使用上確實(shí)比重測信度簡便,但是它不具有穩(wěn)定的性質(zhì),且如何分半目前仍是一大爭議。其次,若測驗(yàn)只是測量同一行為層面較無問題,但是如果同時(shí)測量多個(gè)層面,則隨機(jī)分半將是一件很危險(xiǎn)的事。
這種方法不適合測量事實(shí)性問卷,常用于態(tài)度、意見式問卷的信度分析。
1.2.3 Cronbach’sα系數(shù)法
克朗巴哈α信度系數(shù)是目前最常用的信度系數(shù)。克朗巴哈α信度系數(shù)是量表中項(xiàng)目得分間的一致性,屬于內(nèi)在一致性系數(shù)。它避免了折半信度的缺點(diǎn),它對量表或問卷的內(nèi)部一致性作了更為慎重的估計(jì),因?yàn)樗喈?dāng)于以所有的組合拆分量表所得到分半信度的平均值。不同研究者對信度系數(shù)的界限值有不同的看法,一般認(rèn)為,0.60~0.65認(rèn)為不可信;0. 65~0.70認(rèn)為是最小可接受的值;0.70~0.80認(rèn)為相當(dāng)好; 0.80~0.90就是非常好。Streiner和Norman認(rèn)為克朗巴哈α信度系數(shù)不宜高于0.9,以避免人為地通過增加問卷或量表中條目數(shù)量的方法達(dá)到提高α信度系數(shù)的目的,因?yàn)檫@種條目數(shù)量的增加僅僅是靠同一問題以差異甚微的不同方式多次出現(xiàn)在量表或問卷中而實(shí)現(xiàn)的。因此,一份信度系數(shù)好的量表或問卷最好在0.80以上。若分量表的內(nèi)部一致性系數(shù)在0.60以下或者總量表的信度系數(shù)在0.80以下,應(yīng)該考慮重新修訂量表或增刪題目。
表1 用SPSS軟件進(jìn)行信度測量的調(diào)用與分析
這種方法適用于態(tài)度、意見式問卷(量表)的信度分析。
在SPSS for Window 17.0(Statistical Package for Social Science)統(tǒng)計(jì)分析軟件中Analyze分析菜單下的Scale下有專門的Reliability Analysis信度分析模塊,通過對該模塊的部分選項(xiàng)的選擇可以實(shí)現(xiàn)大部分的問卷信度分析。詳見表1。
任何能導(dǎo)致測量過程中產(chǎn)生誤差的因素都會影響信度。如導(dǎo)致產(chǎn)生不一致的事件方面(被測者的實(shí)際特征發(fā)生了變化、被測者的配合調(diào)查程度、外界環(huán)境的變化等);量表或問卷的設(shè)計(jì)方面(條目的級數(shù)、條目的數(shù)量、條目的代表性等)。
因此,完美的信度是罕見的。但是要想增進(jìn)測量工具的信度,可以參考下面4條原則:(1)清楚地概念化所有的構(gòu)想; (2)增加測量層次;(3)使用多重指標(biāo)來測量一個(gè)變量;(4)使用前測、測試研究和復(fù)制。
1.4.1 清楚地概念化所有的構(gòu)想
如果是對單獨(dú)的一個(gè)構(gòu)想或構(gòu)想的某個(gè)次維度進(jìn)行測量,那會提高信度。這意味著研究者應(yīng)當(dāng)努力發(fā)展沒有任何模糊不清之處的理論定義。構(gòu)想應(yīng)該要有清楚明確的定義,以消除來自其他構(gòu)想的“雜音”(例如,令人分心或干擾思考的信息)。每個(gè)測量工具都應(yīng)該預(yù)測一個(gè),而且是唯一的一個(gè)概念,否則就無法決定被預(yù)測出來的究竟是哪一個(gè)概念。
1.4.2 增加測量層次
測量層次比較高或比較精確的指標(biāo),可能會比測量層次不那么精確的指標(biāo),具有較高的信度,這是因?yàn)楹笳咚@得信息不如前者詳盡。如果要測量的是比較特定的信息,那么就不大可能會測到那個(gè)構(gòu)想以外的其他事物。一般的原則是:盡可能以最精確的等級來測量構(gòu)想。
1.4.3 使用多重指標(biāo)來測量一個(gè)變量
增進(jìn)信度的另一個(gè)方式是使用多重指標(biāo),因?yàn)閷ν粋€(gè)構(gòu)想,使用兩個(gè)或多個(gè)指標(biāo),會比只用一個(gè)好。多重指標(biāo)允許研究者對一個(gè)概念定義的內(nèi)容進(jìn)行廣泛的測量。可以對構(gòu)想的不同層面進(jìn)行測量,每個(gè)層面都有自己的指標(biāo)。而且,一個(gè)指標(biāo)(例如,問卷或量表上的一個(gè)題目)可能不夠完美,但是數(shù)個(gè)測量工具就不可能犯同樣的錯(cuò)誤。多重指標(biāo)測量工具會比單獨(dú)一個(gè)項(xiàng)目的測量工具更為穩(wěn)定。
1.4.4 使用前測、測試研究和復(fù)制
增進(jìn)信度的第四個(gè)原則是先行使用前測或測試版的測量工具。在正式使用最終版本進(jìn)行假設(shè)檢驗(yàn)之前,先就某個(gè)測量工具發(fā)展出一個(gè)或多個(gè)草案或測試版。這比較消耗時(shí)間和精力,但是能夠產(chǎn)生具有信度的測量工具。
使用測試的這個(gè)原則尚包括復(fù)制其他研究者使用過的測量工具。例如,通過查閱文獻(xiàn)、尋找過去研究曾經(jīng)用來測量的工具。如果先前的測量工具是個(gè)好工具,我們可以以該測量工具為基礎(chǔ)并且使用它,當(dāng)然要注明這個(gè)量具的來源。
測量的效度,也稱做測量的有效度或準(zhǔn)確度。它是指測量工具或測量手段能夠準(zhǔn)確測出所要測量的變量的程度,或者說能夠準(zhǔn)確、真實(shí)地度量事物屬性的程度。就其核心,測量效度是構(gòu)想與其指標(biāo)間的吻合程度,觸及的是概念與操作性定義兩者間契合程度的問題。契合程度越高,測量效度就越大。獲得效度要比獲得信度更加困難。研究者無法得到絕對效度,這是因?yàn)闃?gòu)想都是抽象的概念,而指標(biāo)則是具體的觀察。效度是動態(tài)過程的一部分,會隨著證據(jù)的積累與時(shí)俱增。如果沒有了效度,所有的測量都會變得毫無意義。
效度具有4個(gè)性質(zhì)(Gronlund&Linn,1990):(1)效度是指“測驗(yàn)結(jié)果”的正確性或可靠性,而并非工具本身;(2)效度并非全有或全無,只是程度上的差別;(3)效度是針對某一特殊功能或用途而言,不可以普遍性角度衡量;(4)效度無法實(shí)際測量,只能從現(xiàn)有數(shù)據(jù)中去推論。
常用的效度具有三種的類型,即內(nèi)容效度、校標(biāo)效度和結(jié)構(gòu)效度。它們分別從不同的方面反映測量的準(zhǔn)確程度。同時(shí)人們在評估各種測量的效度時(shí),也往往采用這三種類型作為標(biāo)準(zhǔn)。
2.2.1 內(nèi)容效度
內(nèi)容效度指的是測量內(nèi)容或測量指標(biāo)與測量目標(biāo)之間的適合性和邏輯相符性。也可以說是指測量所選擇的項(xiàng)目是否“看起來”符合測量目的和要求。內(nèi)容效度涉及3個(gè)步驟。首先,明確指出某個(gè)構(gòu)想定義的內(nèi)容;其次,從該定義涵蓋的所有區(qū)域內(nèi)抽取樣本;最后,發(fā)展一個(gè)涵蓋該定義下所有不同部分的指標(biāo)。
評價(jià)一種測量是否具有內(nèi)容效度,首先必須知道所測量的概念是如何定義的,其次需要知道這種測量所收集的信息是否和該概念密切相關(guān),然后評價(jià)者才能盡其判斷能力之所及,作出這一測量是否具有內(nèi)容效度的結(jié)論。內(nèi)容效度的重要缺點(diǎn)是缺乏理想的數(shù)量指標(biāo),因而妨礙了信息交流和各測驗(yàn)間的相互比較。
內(nèi)容測驗(yàn)對于能力傾向測驗(yàn)和人格測驗(yàn)一般是不適用的。因?yàn)槟芰y驗(yàn)傾向和人格不像成就測驗(yàn)?zāi)菢尤菀紫薅ǚ秶?。而?通過檢查測驗(yàn)的內(nèi)容來準(zhǔn)確確定所有要測量的心理特性,實(shí)際上是不可能的。
2.2.2 校標(biāo)效度
如果測驗(yàn)的目的是在于預(yù)測樣本未來的表現(xiàn)或是估計(jì)目前在其他測驗(yàn)上的表現(xiàn),可采用校標(biāo)效度來檢驗(yàn)測驗(yàn)的效度。它是利用實(shí)證的方法,檢驗(yàn)測驗(yàn)與一些外在校標(biāo)間的相關(guān),當(dāng)測驗(yàn)與外在校標(biāo)間的相關(guān)愈強(qiáng)時(shí),我們說該測驗(yàn)工具有很高的校標(biāo)效度。最常用的校標(biāo)效度的檢驗(yàn)方法是相關(guān)系數(shù)。校標(biāo)效度是一種屬于事后統(tǒng)計(jì)分析的效度檢驗(yàn)方法。
2.2.3 結(jié)構(gòu)效度
結(jié)構(gòu)效度針對的是多重指標(biāo)的測量工具。它通過利用現(xiàn)有的理論或命題來考察當(dāng)前測量工具或手段的效度。它論及的問題是:如果這個(gè)測量工具有效度,不同指標(biāo)會產(chǎn)生一致的結(jié)果嗎?結(jié)構(gòu)效度檢驗(yàn)的步驟包括:(1)建立假設(shè)性理論建構(gòu)(包括建構(gòu)本身及相關(guān)的理論假設(shè));(2)根據(jù)步驟一編制一份檢驗(yàn),并對學(xué)生進(jìn)行施測;(3)以邏輯或?qū)嵶C的方法檢驗(yàn)該測驗(yàn)是否能有效解釋所欲建構(gòu)。
常用來檢驗(yàn)結(jié)構(gòu)效度的方法是因素分析。因素分析是一種利用相關(guān)系數(shù)找出一份測驗(yàn)潛在共同建構(gòu)(因素)的復(fù)雜統(tǒng)計(jì)方法。因素分析的基本原理是借助共同因素的發(fā)現(xiàn),以驗(yàn)證理論性心理特質(zhì)建構(gòu)的正確性。
在SPSS統(tǒng)計(jì)分析軟件中Analyze分析菜單下的Correlate下有專門的Bivariate分析模塊和Analyze分析菜單下的Dimension→Factor模塊,分別通過對某個(gè)模塊的部分選項(xiàng)的選擇可以實(shí)現(xiàn)大部分的問卷或量表效度分析。具體如表2所示。
表2 用SPSS軟件進(jìn)行效度測量的調(diào)用與分析
測量的效度和信度都是一種相對量,而不是一種絕對量,即他們都是一種“程度事物”。信度和效度都并非絕對的有或無,而是一個(gè)程度上或多或少的問題。
測量的信度和效度之間存在著某種既相互聯(lián)系,又相互制約的關(guān)系。一方面,信度是效度的必要非充分條件:信度低,效度未必低;信度高,未必效度高。另一方面,效度是信度的充分非必要條件:效度高,信度未必高;效度低,未必信度低??梢?信度高不一定效度也高,但一個(gè)測驗(yàn)要想效度高,其信度必須也高。
信度與效度經(jīng)常是互補(bǔ)的概念,但是某些特殊情況下它們也會相互抵消。有些時(shí)候當(dāng)信度增加時(shí),效度會變得比較難以掌握;反之,有些時(shí)候當(dāng)效度增加時(shí),會比較難以確保信度。這是發(fā)生在當(dāng)某個(gè)構(gòu)想過于抽象、缺乏容易觀察的定義之時(shí)。
[1]風(fēng)笑天.社會學(xué)研究方法[M].北京:中國人民大學(xué)出版社,2005:110-112.
[2]王寶進(jìn).英文視窗版SPSS與行為科學(xué)研究[M].北京:北京大學(xué)出版社,2007:481.
[3]張力為.信度的正用與誤用[J].北京體育大學(xué)學(xué)報(bào),2002, 25(3):348.
[4]安勝利,陳平雁.量表的信度及其影響因素[J].中國臨床心理學(xué)雜志,2001,9(4):315-318.
[5]張力為.效度的正用與誤用[J].北京體育大學(xué)學(xué)報(bào),2002, 25(4):494.
Reliability and validity analysis of test in quantitative research of sports science
LIU Zhao-yu
The paper analyses the connotations and features of reliability and validity and ways to measure the reliability and validity.The paper also analyses the SPSS which can be used to measure the reliability and validity.The paper also proposes ways to increase the reliability and analyses the relationship between the reliability and validity.
quantitative research;questionaire;measurement;reliability;validity
G80-32
A
1672-268X(2010)06-0035-03
(2010-09-28 收稿)