王 丹 劉紅云
(北京師范大學(xué)心理學(xué)部,應(yīng)用實驗心理北京市重點實驗室,心理學(xué)國家級實驗教學(xué)示范中心[北京師范大學(xué)],北京 100875)
量表調(diào)查是指通過制定詳密的工具,要求被調(diào)查者據(jù)此進(jìn)行回答以收集資料的方法。因其具有成本低、快捷高效和操作便捷等優(yōu)點,被廣泛應(yīng)用于心理學(xué)、教育學(xué)和社會學(xué)研究。盡管研究者可以通過量表收集到大量有價值的數(shù)據(jù),但是并不能保證作答者參與的熱情和動機(jī),如大量研究發(fā)現(xiàn)現(xiàn)實中作答率呈現(xiàn)逐年下降的趨勢(Anseel,Lievens,Schollaert,& Choragwicka,2010;Christian,Dillman,& Smyth,2008;Weiner &Dalessio,2006)。特別是當(dāng)下在線問卷的流行,很難保證在無人監(jiān)管的情況下作答者認(rèn)真參與調(diào)查(Pauszek,Sztybel,& Gibson,2017)。
不努力作答(Insufficient Effort Response,IER)又稱不認(rèn)真作答,指被調(diào)查者缺乏作答動機(jī),作答不專心、疲勞或加速作答,導(dǎo)致作答數(shù)據(jù)無法反映其真實物質(zhì)(Curran,2016;Hong,Stee dle,& Cheng,2020,Huang,Liu,& Bowling,2015;Meade &Craig,2012)。不努力作答的程度在2%到50%之間(Johnson,2005;Meade &Craig,2012),不努力作答更容易出現(xiàn)在題量較多的量表中,被調(diào)查者的疲勞效應(yīng)會促使其在后半部分不認(rèn)真作答(Berry et al.,1992;Clark,Gironda,& Young,2003)。被不努力作答污染的數(shù)據(jù),不僅會令個體作答數(shù)據(jù)無效,還會為量表指標(biāo)的計算帶來偏差,得出不可靠的分析結(jié)果(Crede,2010;Johnson,2005;Huang,Curran,Keeney,Poposki,& DeShon,2012;Maniaci &Rogge,2014;McGonagle,Huang,& Walsh,2015;Merritt,2012;Steedle,Hong,& Cheng,2020;Woods,2006)。由此可知,對不努力作答的甄別就顯得很有必要。
目前對不努力作答的主要甄別方法和指標(biāo)大約有十幾種,研究者主要集中在針對量表作答過程中可能出現(xiàn)的不努力作答的行為模式,構(gòu)建不同的指標(biāo)并評估指標(biāo)甄別效果(Dunn,Heggestad,Shanock,& Theilgard,2018;Huang et al.,2012;Meade &Craig,2012)。面對不斷出現(xiàn)的指標(biāo)方法,如何選擇和應(yīng)用效果最好的指標(biāo)成為了研究的重點。有研究通過模擬不同程度的不努力作答數(shù)據(jù),評估在不同條件下,各指標(biāo)的敏感度和特異性(Hong &Cheng,2019;Meade &Craig,2012)。但是,不努力作答表現(xiàn)多樣,并非全是隨機(jī)作答數(shù)據(jù),有的還會呈現(xiàn)多種的規(guī)律,很難通過模擬數(shù)據(jù)研究得出的結(jié)論對實際測驗中不努力作答情況進(jìn)行推斷。也有研究者以實際量表數(shù)據(jù)為分析對象,評估清除不努力作答數(shù)據(jù)后,工具質(zhì)量指標(biāo)的計算結(jié)果的變化(Steedle et al.,2019),但是并未對不同甄別指標(biāo)在實際數(shù)據(jù)中的選擇進(jìn)行更進(jìn)一步的研究。
綜上,當(dāng)前研究大多介紹不努力作答甄別的方法及其效果,而對于實際研究中如何綜合應(yīng)用多個指標(biāo)進(jìn)行甄別等問題缺少關(guān)注。本文在對不努力作答識別指標(biāo)進(jìn)行歸納的基礎(chǔ)上,重點探索不同指標(biāo)的適用性和一致性;并探討了不努力作答的消極影響。最后,通過比較實際應(yīng)用中清理不努力作答數(shù)據(jù)的不同方法,在方法選取方面給出了建議。
不努力作答的識別方法分為主動偵查法、作答過程指標(biāo)法和指標(biāo)分析法三類。主動偵查法是一種在測驗實施之前,通過主動設(shè)置題目對不努力作答行為進(jìn)行識別的方法,主要包括陷阱題、直接反應(yīng)題和自評準(zhǔn)確率。第二類是作答過程指標(biāo),基于計算機(jī)在線測試的普及,被調(diào)查者的作答過程信息可以被輕易獲取,比如作答時間和作答完成率。第三類指標(biāo)分析法是對不努力作答的一類事后甄別方法,該類方法通過計算已回收數(shù)據(jù)的各項指標(biāo),判斷被調(diào)查者不努力作答的可能性,常用的指標(biāo)有七種。詳細(xì)見表1。
表1 不同IER模式所對應(yīng)的行為表現(xiàn)及操作定義
表1 不努力作答方法介紹
主要采用指標(biāo)分析法,輔助主動偵查法和作答過程指標(biāo),探討不同方法的應(yīng)用情況。
3.1.1 測驗工具
通過一個實際的網(wǎng)絡(luò)測試的量表數(shù)據(jù),幽默風(fēng)格量表(Humor Styles Questionnaire,HSQ),對不努力作答識別方法和效果進(jìn)行研究。HSQ是由Martin等人開發(fā)的用于測試幽默類型的5點評分量表(Martin,Puhlik-Doris,Larsen,Gray,& Weir,2003),共有4個子量表,每個量表8道題目。
3.1.2 數(shù)據(jù)
所用的數(shù)據(jù)來自于心理測量項目公開的資源(https://openpsychometrics.org/_rawdata/)。1071名被調(diào)查者參與作答,其中男性581名,女性477名,缺失13人;年齡范圍為14-70歲。在調(diào)查最后會詢問被調(diào)查者作答準(zhǔn)確率(Accuracy),即“請對自己作答的準(zhǔn)確程度進(jìn)行0至100的評分”。由于本量表為人格類型的測驗,作答準(zhǔn)確率和被調(diào)查者的能力無關(guān),只和其作答的認(rèn)真程度有關(guān),因此被調(diào)查者匯報的準(zhǔn)確率可等同于自評的認(rèn)真程度。
在進(jìn)行指標(biāo)識別之前,首先需要設(shè)置各指標(biāo)的截斷值(Cutoff)。對于主動偵查法和作答過程數(shù)據(jù)指標(biāo),并沒有一個明確設(shè)置截斷值的方法。這里將自評認(rèn)真程度不高于50%的被判定為不努力作答;題目缺失率(Missing)可考慮采用缺失1道和2道題這兩個標(biāo)準(zhǔn)來判定。
對于指標(biāo)分析法中的多個指標(biāo),確定截斷值的方法并不同(分析語句見https://osf.io/wgfhv/)。LongString的截斷值采用Johnson(2005)提出的碎石圖法,對所有作答者在每個選項上面不同長度的連續(xù)作答的頻率進(jìn)行比較,將碎石圖的拐點作為截斷值,每一個選項對應(yīng)一個截斷值。根據(jù)圖1,選項2-4的拐點對應(yīng)的題目數(shù)目為4,選項1和選項5的拐點在3或4,因此最終選出四組截斷值,分別是(3,4,4,4,3),(3,4,4,4,4),(4,4,4,4,3)和(4,4,4,4,4)。
圖1 選項1至選項5的碎石圖
對于lz指標(biāo),可直接基于零假設(shè)的顯著性檢驗,采用第一類錯誤率(α)0.01或0.05所對應(yīng)的臨界值作為截斷值。利用R語言中的PerFit包(Tendeiro,Meijer,& Niessen,2016)計算每個被試四個子量表的lz值。參考Hong等(2020)的研究,當(dāng)其中一個子量表的lz低于截斷值時,意味著作答者的答案與預(yù)期答案的差異在統(tǒng)計上是顯著的,代表其很可能沒有認(rèn)真讀題或者隨機(jī)作答,因此被判定為不努力作答。對于MD指標(biāo),理論上也可以采用零假設(shè)的顯著性檢驗,但在實際中,MD的平方有可能偏離了中心卡方分布,直接采用此方法可能會帶來較大偏差(Hong et al.,2020)。
對于MAD,PS,Even Odd、IRV和MD指標(biāo),截斷值的確定主要有兩種方法。第一種方法是異常值檢測,該方法的原理是模擬各指標(biāo)的零假設(shè)分布。首先通過清理數(shù)據(jù)降低IER的消極影響和α,然后選擇合適的IRT模型擬合清理后的測驗數(shù)據(jù),再根據(jù)IRT參數(shù)和能力分布模擬樣本作答,根據(jù)模擬樣本計算出每個指標(biāo),并建立該指標(biāo)零假設(shè)下的抽樣分布,α=0.05和0.01對應(yīng)的值為截斷值(Steedle et al.,2019)。第二種方法比較簡單,按照比例直接篩選不努力作答,比如Dunn等人以10%的比例篩選不努力作答被調(diào)查者(Dunn et al.,2018),Huang等人則分別以1%和5%設(shè)置截斷值(Huang et al.,2012)。
這里采用第一種方法計算截斷值,用R語言中的mirt包(Chalmers,2012)和careless包(Yentes &Wilhelm,2023),語句見附錄1。各項指標(biāo)的截斷值和識別人數(shù)見表2。
表2 各指標(biāo)對不同類型IER行為的識別效果
表2 各指標(biāo)的截斷值和識別結(jié)果
不努力作答的表現(xiàn)形式多樣,這里將不努力作答的表現(xiàn)概括為以下五種:
(1)連續(xù)相同作答。即連續(xù)選擇相同答案,比如“3,3,3,3,3,3,3”。
(2)忽略相反題。忽視了當(dāng)前題目中的相反詞,從而出現(xiàn)作答方向錯誤的情況。
(3)趨中作答。在沒有認(rèn)真閱讀題目的情況下,連續(xù)選擇立場不夠明確的中間答案,比如在六點量表中出現(xiàn)大量“3,4,3,3,4,4,4,3,3”模式的作答。
(4)順序作答。按照順序選擇答案,比如“ABCDABCD……”。
(5)完全隨機(jī)作答。在不努力作答時,每一個選項都有同等的可能性被不努力作答者選中(Huang et al.,2015),通常毫無規(guī)律。
為了研究不同指標(biāo)對不同IER模式的適用性,針對以上五種不努力作答的模式,就其對應(yīng)行為的表現(xiàn)特點進(jìn)行了描述,并在給出了其操作定義見附錄表1。
對比每個指標(biāo)識別出的不努力作答者和努力作答者,在不同模式所對應(yīng)的操作定義中表現(xiàn)是否有顯著差異,從而判斷不同指標(biāo)的模式適用性。采用指標(biāo)MAD(α=0.05)、PS(α=0.05)、LongString(截斷值3,4,4,4,4)、IRV(α=0.01)、MD(α=0.01)、Even Odd(α=0.05)和lz(α=0.01)區(qū)分出的不努力作答群體和努力作答群體在五項行為上的表現(xiàn),兩組群體的平均值和差值在附錄的表2中呈現(xiàn),根據(jù)結(jié)果可知:
(1)對于連續(xù)相同作答,連續(xù)相同作答平均長度值越大,說明越容易連續(xù)選擇相同答案。LongString、IRV的識別效果較好,識別的出不努力作答者(IER組)的平均長度值較大,與未識別出的被調(diào)查者(安全組)相比差值顯著(p=0.025,cohen’sd=0.266;p=0.043,cohen’sd=0.223)。
(2)對于忽略相反題,同一維度下反向題(轉(zhuǎn)換成相同方向后)與正向題分得分方向相反,表明忽略相反題的可能性越大。MAD、PS、MD、Even Odd和lz標(biāo)注出的IER組忽略相反題的次數(shù)更多,與安全組相比差值都顯著(p<0.001)。根據(jù)差值從大到小依次是MAD、MD、Even Odd、lz和PS(cohen’sd依次為1.589,0.604,0.528,0.547,0.403)。
(3)對于趨中作答,選擇“3”的頻率越高,說明趨中作答越明顯。IRV指標(biāo)區(qū)分出的兩組群體趨中作答的頻次差異最大,IER組與另一組的差值為5.340(p<0.001,cohen’sd=1.493),說明IRV對趨中作答的識別效果較好。
(4)對于順序作答,作答數(shù)據(jù)中順序作答的數(shù)量會較多,說明其按照順序選擇答案的傾向就更明顯。IRV識別效果最佳,IER組與另一組相比差值為2.140(p<0.001,cohen’sd=0.558)。
(5)隨機(jī)作答模式中,以與平均發(fā)生率的差值為效標(biāo),通常量表中每個選項被選擇的頻次呈現(xiàn)一定的規(guī)律,比如中間選項被選的頻次通常較兩段的選項高一些,而完全隨機(jī)作答的數(shù)據(jù)不會呈現(xiàn)此規(guī)律,因此隨機(jī)選擇答案的被調(diào)查者的實際選項頻率和平均發(fā)生率的差值較大。其中差值較大的是IRV、LongString、MD、lz指標(biāo)(p<0.001,cohen’sd依次為2.393,1.045,0.265,0.262)。
根據(jù)表3可知,IRV指標(biāo)比LongString表現(xiàn)更好,在一定程度上可以替代LongString(Dunn et al.,2018)。在“忽略相反題”中,MD和lz有不錯的表現(xiàn),因此可與IRV組合覆蓋全部IER模式,達(dá)到取長補(bǔ)短的效果。
表3 不同IER指標(biāo)的適用情況
對不同方法效果之間的一致性進(jìn)行分析,大部分指標(biāo)之間的相關(guān)系數(shù)雖然顯著,但是識別效果的并不完全一致。根據(jù)表4可知,MD和lz之間呈現(xiàn)強(qiáng)相關(guān)(r=0.528,p<0.001),說明二者甄別結(jié)果比較一致,二者與MAD、PS和Even Odd呈現(xiàn)顯著正相關(guān);IRV和LongString之間呈現(xiàn)微弱的相關(guān)(r=0.161,p<0.001),二者與其他指標(biāo)的相關(guān)關(guān)系并不強(qiáng),甚至IRV與lz和MD呈現(xiàn)微弱的負(fù)相關(guān)。
表4 同IER指標(biāo)識別效果的相關(guān)系數(shù)
Herman和Hilton(2017)認(rèn)為量表數(shù)據(jù)質(zhì)量參差不齊,會對測驗工具各項指標(biāo)的分析產(chǎn)生不可靠的影響。研究二假設(shè)刪除不努力作答數(shù)據(jù)之后,會對測驗分析提供更準(zhǔn)確的工具指標(biāo)分析結(jié)果。在過往的研究中HSQ被證明有較好的信效度,是一個穩(wěn)定有效的測量工具(詹雨臻,陳學(xué)志,卓淑玲,& Martin,2011)。對回收的1071份數(shù)據(jù)進(jìn)行分析,可知α=0.862,CFI=0.842,RMSEA=0.060,四個量表的平均相關(guān)系數(shù)r=0.278,與前人研究結(jié)果接近。接下來會以HSQ的數(shù)據(jù)為例,演示不努力數(shù)據(jù)清理的步驟,并比較清理前后的工具指標(biāo)。首先,進(jìn)行不努力作答數(shù)據(jù)的清洗。
第一步,通過主動偵查法,清理不努力作答。本量表沒有設(shè)置測謊題和陷阱題,只有自我匯報準(zhǔn)確率,對于準(zhǔn)確率不高于50%的數(shù)據(jù)進(jìn)行清理;
第二步,通過過程數(shù)據(jù)清理無效作答。因為缺少作答時間的數(shù)據(jù),只能考慮作答缺失,作答缺失在兩題及以上的被清理;
第三步,指標(biāo)識別不努力作答。根據(jù)前面研究結(jié)果,考慮將IRV指標(biāo)結(jié)合MD或lz指標(biāo),對不努力作答進(jìn)行篩選,截斷值與前面一致。
值得注意的是前兩個步驟的方法對不努力作答的識別雖準(zhǔn)確卻不夠敏感(Meade &Craig,2012),因此這里將在前兩步的基礎(chǔ)上結(jié)合第三步的指標(biāo)對不努力作答進(jìn)行識別,共有六種指標(biāo)組合,組合1沒有加入任何指標(biāo),是“題目完成率+自我匯報準(zhǔn)確率”,組合2是“題目完成率+自我匯報準(zhǔn)確率+IRV”,組合3是“題目完成率+自我匯報準(zhǔn)確率+MD”,組合4是“題目完成率+自我匯報準(zhǔn)確率+lz”,組合5是“題目完成率+自我匯報準(zhǔn)確率+IRV+MD”,組合6是“題目完成率+自我匯報準(zhǔn)確率+IRV+lz”。
將原始數(shù)據(jù)分析得出的工具指標(biāo)結(jié)果作為基線模型,比較六種組合下數(shù)據(jù)清理后各工具指標(biāo)的與基線模型的差值。
根據(jù)表5可知與基線模型相比,各指標(biāo)組合清洗后的數(shù)據(jù)所得內(nèi)部一致性系數(shù)和CFI值基本上都更高,大部分組合的RMSEA均小于基線模型。大部分組合的量表平均相關(guān)系數(shù)也都高于總體。這說明清理了不努力作答數(shù)據(jù)之后,其描述測驗質(zhì)量相關(guān)的各項指標(biāo)在大部分情況下基本優(yōu)于不努力作答的數(shù)據(jù),工具的信度和效度的指標(biāo)計算結(jié)果變得更好。
表5 數(shù)據(jù)清理前后的測驗工具各項指標(biāo)平均數(shù)(無IER)
不同組合進(jìn)行比較,組合2和組合6清理后的數(shù)據(jù),計算得出的α系數(shù)、擬合指數(shù)和平均相關(guān)系數(shù)皆優(yōu)于基線模型。說明題目作答率、自我匯報準(zhǔn)確率、lz和IRV在對不努力作答數(shù)據(jù)清理之后,量表的信度、結(jié)構(gòu)效度和同時效度都能得到更好的驗證。
除了介紹不努力作答的方法和類型,以及截斷值計算,與以往研究不同的是,對不努力作答的行為模式特點也進(jìn)行了分類和分析,并在研究一中總結(jié)了多種識別指標(biāo)擅長的不努力作答模式。結(jié)果表明IRV屬于比較綜合的指標(biāo),僅在忽略相反題的模式上表現(xiàn)不突出,因此可與在該模式表現(xiàn)較好的MAD、MD、lz等指標(biāo)進(jìn)行組合篩查。通過各指標(biāo)識別效果的一致性分析,IRV和MD、lz呈現(xiàn)負(fù)相關(guān),這可能是因為MD和lz主要針對無規(guī)律的不努力作答形式,而IRV和LongString則主要針對連續(xù)相近或相同作答這類有規(guī)律的不努力作答模式。因此,各指標(biāo)對不同的不努力作答行為各有所長,應(yīng)當(dāng)將多個指標(biāo)綜合使用取得最佳甄別效果。研究二演示了不努力作答數(shù)據(jù)清洗的步驟,結(jié)果表明多種方法組合清理后的數(shù)據(jù)質(zhì)量更好,將題目完成率、自評認(rèn)真程度、IRV和lz進(jìn)行組合達(dá)到了較好的甄別效果。
不努力作答被認(rèn)為會對數(shù)據(jù)分析結(jié)果產(chǎn)生消極影響。對比清理前后的作答數(shù)據(jù),無不努力作答的數(shù)據(jù)分析結(jié)果顯示CFI更高,RMSEA更低,內(nèi)部一致性系數(shù)更好,子量表之間的相關(guān)系數(shù)也更高。這反映出不努力作答數(shù)據(jù)對測驗工具的信度、結(jié)構(gòu)效度的計算產(chǎn)生消極的影響。努力作答的數(shù)據(jù)會讓分析結(jié)果更加穩(wěn)定,且能更好地擬合量表背后的理論結(jié)構(gòu),結(jié)果也更容易被解釋。
對不努力作答甄別方法進(jìn)行歸納,如表6所示。建議在實際研究中進(jìn)行不努力數(shù)據(jù)清洗時,可優(yōu)先考慮主動偵查法和作答過程指標(biāo),因為這些方法是基于被調(diào)查者明確的行為,因此更有可靠性,比如作答時間極短的人是無法努力作答的。但這些方法對不努力作答模式不夠敏感,檢驗力有限。比如,由于作答者很容易察覺到預(yù)先設(shè)置的題目,導(dǎo)致方法失效,因此這類方法識別出的不努力作答者相對其他方法較少(Meade &Criag,2012);同時作答時間只能找出快速作答者,無法甄別出作答速度正常的不努力作答者。倘若缺乏這類信息或想增加檢驗力,可考慮使用多種IER指標(biāo)對作答數(shù)據(jù)進(jìn)行事后分析和清洗。
表6 不努力作答數(shù)據(jù)清洗方法總結(jié)與建議
根據(jù)表6可知,不同方法有各自的優(yōu)缺點,建議結(jié)合多種方法和指標(biāo)清理不努力作答數(shù)據(jù),達(dá)到最佳清洗效果。建議采用“MD/lz+ IRV”指標(biāo)組合進(jìn)行甄別,在此基礎(chǔ)上也可以再考慮MAD、PS、Even Odd等指標(biāo)作為補(bǔ)充。
本文主要存在以下兩方面的不足。首先,缺乏更加有效的效標(biāo)對各指標(biāo)的識別效果進(jìn)行評估。不努力作答的成因復(fù)雜,很難用作答表現(xiàn)直接去解釋。在研究一中,5種行為僅能說明該被調(diào)查者有這樣的行為特征,卻不能直接說明這樣的行為特征完全是由不努力作答引起的,這是存在的局限。其次,根據(jù)被調(diào)查者自評的準(zhǔn)確率可知,不同的被調(diào)查者作答認(rèn)真程度并不相同,目前只是對不努力作答進(jìn)行了“是”或“否”的區(qū)分,卻無法評估其不努力作答程度。在后續(xù)研究中,對以上兩個問題進(jìn)行深入探討是有必要的。
對不努力作答的常用指標(biāo)進(jìn)行梳理,通過一個實際的量表對不努力作答程度以及其消極影響、各指標(biāo)的具體表現(xiàn)進(jìn)行了數(shù)據(jù)分析和探討,得出以下三個結(jié)論:
第一,針對不同的不努力作答行為,不同指標(biāo)識別效果的并不一致,這反應(yīng)出不同指標(biāo)在甄別不同IER行為的效果各有所長。
第二,不努力作答會對數(shù)據(jù)分析結(jié)果產(chǎn)生消極影響,不努力作答的數(shù)據(jù)會導(dǎo)致信度、效度等指標(biāo)計算結(jié)果變差。
第三,針對心理量表的數(shù)據(jù),建議綜合采用多種方法和多個甄別指標(biāo)對不努力作答被試進(jìn)行識別和清理。