摘 要 混合效應(yīng)模型(Mixed-Effects Model, MEM)將被試和刺激項目同時作為隨機變量, 有效地分析實驗效應(yīng)和相關(guān)的被試(或刺激項目)差異, 從而避免了傳統(tǒng)方差分析的隨機效應(yīng)固定化問題?;诖?, 文中構(gòu)建了混合MEM、獨立MEM和速度MEM三個聯(lián)合模型, 并與反應(yīng)和反應(yīng)時數(shù)據(jù)的分開建模(即分開MEM)進行比較。在IAT實驗數(shù)據(jù)分析中, 分開MEM的模型擬合與參數(shù)估計均不如獨立MEM, 而混合MEM的模型擬合優(yōu)于獨立MEM和速度MEM。模擬結(jié)果顯示, 分開MEM參數(shù)估計的相對偏差普遍大于獨立MEM, 且具有較高的第I類錯誤率; 而混合MEM比其他聯(lián)合模型能更好地識別不同模擬情景的參數(shù), 并且具有較佳的第I類錯誤率和統(tǒng)計檢驗力。因此, 在心理實驗中, 聯(lián)合建模方法比分開建模具有更大優(yōu)勢。
關(guān)鍵詞 心理實驗, 反應(yīng)時, 反應(yīng), 混合效應(yīng)模型, 聯(lián)合建模
分類號 B841
1 引言
近年來, 混合效應(yīng)模型(Mixed-Effects Model, MEM)在心理實驗數(shù)據(jù)統(tǒng)計分析中的應(yīng)用日益廣泛, 引起了研究者的普遍關(guān)注。相比傳統(tǒng)方差分析, MEM在統(tǒng)計分析上具有明顯優(yōu)勢, 能有效克服傳統(tǒng)方差分析存在的隨機效應(yīng)固定化問題, 從而減少結(jié)果偏差(Baayen et al., 2008; Meteyard & Davies, 2020)。傳統(tǒng)方差分析需要先計算被試和刺激項目的平均反應(yīng)時, 然后再進行分析(F1/F2檢驗)。這種處理過程會導(dǎo)致隨機效應(yīng)固定化, 進而造成較高的假陽性問題(Barr et al., 2013; Rietveld & Van Hout, 2007)。相比之下, MEM可以將被試和刺激項目同時作為隨機因素, 從而更精確地分析實驗效應(yīng)及相應(yīng)的被試或刺激項目差異(Matuschek et al., 2017)。隨著時間的推移, MEM已在心理學(xué)、語言學(xué)和認知科學(xué)等多個領(lǐng)域得到廣泛應(yīng)用, 彰顯出處理復(fù)雜數(shù)據(jù)結(jié)構(gòu)的可靠性與靈活性(Sorensen et al., 2016; Visalli et al., 2024)。因此, MEM被認為將成為心理科學(xué)統(tǒng)計分析的主導(dǎo)方法, 甚至可能成為數(shù)據(jù)分析的默認方法(Meteyard et al., 2020)。
在心理實驗中, 最常用的因變量是被試在刺激項目上的反應(yīng)與反應(yīng)時數(shù)據(jù)。根據(jù)因變量的性質(zhì), MEM可以分為兩類模型。當(dāng)因變量為連續(xù)變量(比如反應(yīng)時數(shù)據(jù))時, MEM為線性混合效應(yīng)模型 (Linear Mixed-Effects Model, LMEM; Baayen et al., 2008); 而當(dāng)因變量為離散變量(比如反應(yīng)數(shù)據(jù))時, MEM為廣義線性混合效應(yīng)模型(Generalized Linear Mixed-Effect Model, GLMEM; Lee, 2018)。對于反應(yīng)時數(shù)據(jù)的分析一直是心理實驗研究的重點。不同研究者在LMEM上展開了系列的探討。在隨機效應(yīng)結(jié)構(gòu)上, 研究者分別從實驗設(shè)計的理論驅(qū)動(Barr et al., 2013; Judd et al., 2012, 2017)和數(shù)據(jù)驅(qū)動(Martínez-Huertas et al., 2022; Matuschek et al., 2017)去確定LMEM的最優(yōu)隨機效應(yīng)結(jié)構(gòu)。同時, 還有研究者探討了LMEM的統(tǒng)計檢驗力、效應(yīng)量和樣本量計算(Brysbaert & Stevens, 2018; Kumle et al., 2021; 劉玥 等, 2024), 并提供了LMEM的實踐應(yīng)用指南(Brown, 2021; DeBruine & Barr, 2021; 馬拯 等, 2022; Meteyard et al., 2020)。除了反應(yīng)時數(shù)據(jù), 反應(yīng)數(shù)據(jù)也能提供被試重要的操作信息。心理實驗常將反應(yīng)的準(zhǔn)確率作為評估反應(yīng)時數(shù)據(jù)質(zhì)量的重要標(biāo)準(zhǔn), 但對反應(yīng)數(shù)據(jù)的進一步研究較少。反應(yīng)數(shù)據(jù)容易違背方差分析的正態(tài)分布假設(shè), 因此不適用于方差分析。為解決這一問題, Dixon (2008)提出采用GLMEM和Rasch模型替代方差分析, 結(jié)果發(fā)現(xiàn)GLMEM效果更優(yōu)。Jaeger (2008)進一步提出包含被試和刺激項目隨機效應(yīng)交叉的GLMEM, 并應(yīng)用于心理語言學(xué)數(shù)據(jù)分析。Lee (2018)通過模擬研究探討了重復(fù)測量實驗設(shè)計下GLMEM的最優(yōu)隨機效應(yīng)結(jié)構(gòu), 以及錯誤指定隨機效應(yīng)結(jié)構(gòu)的影響, 為GLMEM在心理實驗反應(yīng)數(shù)據(jù)分析提供了指導(dǎo)。然而, 在心理實驗中, 反應(yīng)和反應(yīng)時數(shù)據(jù)常分開建模, 缺乏對二者關(guān)系的聯(lián)合考慮。這不利于充分利用與整合被試的不同實驗操作信息, 從而不能更為準(zhǔn)確地分析實驗設(shè)計結(jié)構(gòu)和實驗效應(yīng)。
與反應(yīng)與反應(yīng)時數(shù)據(jù)分開建模相比, 聯(lián)合建模在模擬和實證數(shù)據(jù)上能提供更為合理的結(jié)果(Suh, 2010), 更為準(zhǔn)確的參數(shù)估計(Bolsinova & Tijmstra, 2018; Loeys et al., 2011)和更好的模型擬合效果(Loeys et al., 2011; Man et al., 2019)。因此, 對心理實驗數(shù)據(jù)進行聯(lián)合建模就顯得特別重要。目前, 不同研究者基于心理測量與認知過程兩種建模思路進行了系列探究。心理測量模型以數(shù)據(jù)結(jié)構(gòu)的特點為依據(jù)進行建模, 而認知過程模型以被試反應(yīng)過程的假設(shè)為基礎(chǔ)進行建模。兩種建模不存在明顯的優(yōu)劣之分, 但存在一定的關(guān)聯(lián)(Bunji & Okada, 2020; van der Maas et al., 2011)。在心理測量中, 為了聯(lián)合分析測驗項目的反應(yīng)與反應(yīng)時數(shù)據(jù), van der Linden (2007)提出了目前最流行的聯(lián)合建模方法。在聯(lián)合建模中, 反應(yīng)與反應(yīng)時模型構(gòu)成聯(lián)合模型的第一層, 被試參數(shù)間的相關(guān)分布與項目參數(shù)間的相關(guān)分布構(gòu)成第二層。基于聯(lián)合建??蚣?, 不同研究者從反應(yīng)時模型的適用性(郭小軍 等, 2024; Klein Entink et al., 2009; Ranger & Kuhn, 2012)、測驗多維性(Guo et al., 2022; Man et al., 2019)以及測驗類型(Liang et al., 2023; Ranger, 2013)等多個角度進行了拓展。Loeys等人(2011)基于LMEM和GLMEM對心理實驗反應(yīng)與反應(yīng)時數(shù)據(jù)進行聯(lián)合建模, 結(jié)果聯(lián)合模型比分開建模在參數(shù)估計精度和模型擬合方面更具優(yōu)勢。但是該聯(lián)合模型忽視了被試與處理的交互作用(或被試隨機斜率), 無法較好地刻畫重復(fù)測量實驗設(shè)計的數(shù)據(jù)結(jié)構(gòu)特征。van der Linden的聯(lián)合模型假設(shè)被試反應(yīng)時是充足的, 且與反應(yīng)彼此獨立。然而, 在實際測試中, 測驗通常在時間限制內(nèi)實施。因此, Lee和Ying (2015)提出了適用于時間限制測驗(Time-Limit Test)的混合聯(lián)合模型。相比傳統(tǒng)聯(lián)合模型(van der Linden, 2007), 混合聯(lián)合模型在模型擬合和參數(shù)估計精度上表現(xiàn)更佳。在認知過程模型中, 研究者常將反應(yīng)數(shù)據(jù)作為判斷被試在刺激項目上的加工時間是否充足的標(biāo)記(Brown & Heathcote, 2008; Ranger et al., 2015), 并建立不同反應(yīng)時分布模型來描述正確(或被選擇)和錯誤(或未選擇)的刺激項目的信息(Miller et al., 2018; Ranger et al., 2015; Rouder et al., 2015)。
綜合上述分析, 反應(yīng)與反應(yīng)時數(shù)據(jù)的聯(lián)合建??梢苑譃槿悾浩湟皇仟毩⒙?lián)合建模(van der Linden, 2007), 假設(shè)實驗任務(wù)的反應(yīng)與反應(yīng)時關(guān)系是相互獨立, 而反應(yīng)與反應(yīng)時模型的參數(shù)之間存在相關(guān)。其二是混合聯(lián)合建模(Lee et al., 2015), 假設(shè)實驗任務(wù)的反應(yīng)與反應(yīng)時是混合影響關(guān)系, 操作正確需要充足的時間和認知能力, 而操作錯誤可能由于反應(yīng)時或認知能力不足導(dǎo)致。最后是速度聯(lián)合建模(Rouder et al., 2015), 假設(shè)反應(yīng)是反應(yīng)時是否充足的標(biāo)記, 實驗任務(wù)的完成僅受到反應(yīng)時的影響。在心理實驗中, 刺激項目通常會設(shè)置呈現(xiàn)時間, 并且任務(wù)相對簡單。因此, 構(gòu)建符合心理實驗特點的聯(lián)合模型就顯得尤為重要。但是, 目前尚無研究系統(tǒng)地比較LMEM和GLMEM在心理實驗中反應(yīng)與反應(yīng)時數(shù)據(jù)聯(lián)合建模的表現(xiàn)。心理測量與認知過程的聯(lián)合模型為此提供了有益的啟示, 值得進一步深入探索。為了充分利用心理實驗數(shù)據(jù), 更全面準(zhǔn)確地分析實驗設(shè)計特點和評估實驗效果, 開發(fā)符合心理實驗特點的聯(lián)合模型具有重要意義。
為了開發(fā)符合心理實驗特點的聯(lián)合模型, 文中構(gòu)建了混合MEM、獨立MEM和速度MEM三個聯(lián)合模型, 并分析三個聯(lián)合模型的關(guān)系。本文內(nèi)容結(jié)構(gòu)安排如下:首先回顧LMEM和GLMEM; 其次介紹混合MEM構(gòu)建, 以及與獨立MEM和速度LMEM的關(guān)系; 然后通過實例探討LMEM和GLMEM的隨機效應(yīng)結(jié)構(gòu)特點以及進行不同模型的比較; 接下來通過模擬檢驗不同模型的參數(shù)估計效果與實驗處理效應(yīng)的識別性能; 最后進行討論與總結(jié)。
2 混合效應(yīng)模型的聯(lián)合建模
在介紹混合MEM前, 先介紹LMEM和GLMEM, 然后再闡述混合MEM的構(gòu)建, 以及與獨立MEM和速度MEM的關(guān)系。接下來, 將以單因素兩水平重復(fù)測量實驗設(shè)計為例, 自變量包含兩個水平, 被試接受所有水平處理, 且被試和刺激項目分別與實驗處理交叉。基于此, GLMEM和LMEM理論上包含了所有隨機效應(yīng)(Judd et al., 2017)。
2.1 反應(yīng)時模型LMEM
假設(shè)為被試i (i = 1,…,N)在條件k (k = 1,…,K)上的刺激項目j (j = 1,…,m)的反應(yīng)時, 則LMEM可以表示為
其中, 和都為固定效應(yīng)參數(shù), 表示總體平均反應(yīng)時, 表示不同實驗條件的斜率或處理效應(yīng)。通常情況下, 在兩水平條件下編碼為和。和是被試的隨機截距和斜率, 假設(shè)服從二元正態(tài)分布, 如式(2)所示, 反映了被試在實驗任務(wù)上的加工速度, 值越大加工速度越慢。和是刺激項目的隨機截距和斜率, 假設(shè)服從二元正態(tài)分布, 如式(3)所示。為殘差反應(yīng)時, 假設(shè)服從均值為0, 方差為的正態(tài)分布。
2.2 反應(yīng)模型GLMEM
在心理實驗中, 被試對刺激項目上的反應(yīng)假設(shè)服從logistic分布(Dixon, 2008; Jaeger, 2008), 并且假設(shè)與LMEM具有相同的隨機效應(yīng)結(jié)構(gòu), 則GLMEM可以表示為
其中, 指被試i在條件k上的刺激項目j的反應(yīng)準(zhǔn)確率。和為固定效應(yīng)參數(shù)。和是被試反應(yīng)準(zhǔn)確率的隨機截距和斜率, 兩者服從二元正態(tài)分布, 如式(5)所示, 反映了被試在實驗任務(wù)中的認知能力, 值越大, 被試的認知能力水平越高。和是刺激項目的反應(yīng)準(zhǔn)確率的隨機截距和斜率, 假設(shè)服從二元正態(tài)分布, 如式(6)所示。
在心理實驗中, LMEM和GLMEM常應(yīng)用于反應(yīng)時與反應(yīng)數(shù)據(jù)建模分析中, 文中將這種分開建模簡稱為分開MEM。然而, 分開MEM割裂了心理實驗反應(yīng)與反應(yīng)時數(shù)據(jù)的關(guān)系, 無法充分利用心理實驗不同數(shù)據(jù)信息, 從而限制了對心理實驗數(shù)據(jù)結(jié)構(gòu)與效應(yīng)的深入探究。為了更好地整合心理實驗反應(yīng)與反應(yīng)時數(shù)據(jù), 非常有必要構(gòu)建心理實驗的反應(yīng)與反應(yīng)時數(shù)據(jù)的聯(lián)合模型。
2.3 基于聯(lián)合建模的混合MEM
在心理實驗中, 常會設(shè)置刺激項目的呈現(xiàn)時間, 被試需要在呈現(xiàn)時間內(nèi)做出操作反應(yīng)。在混合MEM中, 假設(shè)被試在實驗任務(wù)上的操作正確是由于具有充足的認知能力和反應(yīng)時; 而操作錯誤可能是因被試在實驗任務(wù)上的認知能力充足, 但反應(yīng)時不足導(dǎo)致(Miller et al., 2018; Ranger et al., 2015; Rouder et al., 2015), 亦或者被試的認知能力不足導(dǎo)致無效加工(Lee et al., 2015)?;诖耍?構(gòu)建了心理實驗反應(yīng)與反應(yīng)時數(shù)據(jù)的混合MEM, 可以表示為
其中, 表示反應(yīng)時的密度函數(shù)(如式1所示), 表示GLMEM的正確反應(yīng)概率(如式4所示)。反映了被試在實驗任務(wù)上的認知能力和反應(yīng)時都是充足的, 即操作正確的信息。對于操作錯誤信息由兩部分構(gòu)成, 其一是認知能力不足, 通過GLMEM的錯誤率 描述, 表明被試缺乏相應(yīng)的認知能力; 其二是認知能力充足而反應(yīng)時不足, 認知能力充足通過描述, 而反應(yīng)時不足通過的生存函數(shù)表示, 其中為的累積分布函數(shù), 表示被試在時間點時仍未正確操作的概率(Miller et al., 2018), 乘積構(gòu)成認知能力充足而反應(yīng)時不足的信息。因無法明確區(qū)分被試是認知能力不足還是反應(yīng)時不足導(dǎo)致操作錯誤, 因此通過兩部分信息之和構(gòu)成操作錯誤的信息(Lee et al., 2015)。最終構(gòu)成混合MEM, 如式7所示。
在混合MEM的第二層模型中, 假設(shè)LMEM和GLMEM的被試參數(shù)間以及刺激項目參數(shù)間的相關(guān)分布分別服從多元正態(tài)分布。其中, 和分別表示被試與刺激項目的隨機截距與斜率的均值, 且兩者的均值向量都為0 (DeBruine et al., 2021; Lee, 2018; Loeys et al., 2011), 和為協(xié)方差矩陣, 如式(8)和式(9)所示。
在混合MEM中, 當(dāng)被試在實驗刺激項目上的反應(yīng)與反應(yīng)時是獨立時, 正確與錯誤的反應(yīng)時都假設(shè)是充足的, 不存在截尾時間, 正確與錯誤的反應(yīng)時都通過密度函數(shù)來描述, 而正確和錯誤的反應(yīng)概率通過和表示。三者聯(lián)合乘積構(gòu)成獨立MEM。此時, 混合MEM可以簡化為獨立MEM(式10)。同時, 獨立MEM的第二層模型假設(shè)被試參數(shù)間和刺激項目參數(shù)間的相關(guān)分布均為多元正態(tài)分布(式8-9)。
對于速度MEM, 假設(shè)被試在刺激項目上的操作反應(yīng)只受反應(yīng)時影響(Ranger et al., 2015; Rouder et al., 2015), 被試在所有刺激項目上的認知能力是充足的。因此, 在混合MEM中, 或?;旌螹EM可以簡化為速度MEM(如式11), 其中參數(shù)間的相關(guān)如式(2)和式(3)所示。
對于三個聯(lián)合模型的關(guān)系, 混合MEM反映了實驗任務(wù)中反應(yīng)和反應(yīng)時之間的混合影響; 當(dāng)實驗任務(wù)的反應(yīng)和反應(yīng)時相互獨立時, 混合MEM模型可以簡化為獨立MEM; 當(dāng)實驗任務(wù)只受到反應(yīng)時影響時, 混合MEM可簡化為速度MEM。此外, 在應(yīng)用情景上, 混合MEM適用于既有難度又有時間壓力的實驗任務(wù); 獨立MEM適用于有難度但時間完全充裕的實驗任務(wù); 而速度MEM則適用于非常簡單但有時間壓力的實驗任務(wù)。
2.4 模型參數(shù)估計
對于混合MEM、獨立MEM、速度MEM和分開MEM的參數(shù)估計, 均采用漢密爾頓蒙特卡洛(Hamiltonian Monte Carlo, HMC) (Hoffman & Gelman, 2014)算法, 并在R語言rstan軟件包(Gelman et al., 2015)中實現(xiàn)。與傳統(tǒng)的馬爾科夫鏈蒙特卡羅(Markov chain Monte Carlo, MCMC)算法相比, HMC算法被認為具有更高的效率和更快的推斷速度(Ames & Au, 2018)。三個模型的待估參數(shù)的先驗分布設(shè)置見附錄1。同時, 文中IAT實驗數(shù)據(jù)與三個聯(lián)合模型的stan代碼可以通過網(wǎng)址https://www.scidb.cn/anonymous/NmJVeklu進行下載。
3 實驗數(shù)據(jù)分析:顏色內(nèi)涵的內(nèi)隱傾向IAT實驗
3.1 實驗過程描述
實驗設(shè)計:顏色內(nèi)涵的內(nèi)隱傾向IAT實驗采用了單因素兩水平重復(fù)測量實驗設(shè)計。自變量為任務(wù)類型, 分別為相容任務(wù)和不相容任務(wù); 因變量為被試在每個刺激項目上的反應(yīng)與反應(yīng)時。
實驗被試:從某高校招募了50名大一新生作為被試, 其中男生20人, 女生30人。所有被試均為右利手, 矯正視力正常, 之前未參與過類似實驗。
實驗程序:實驗采用黃色和紅色代表彩色概念, 黑色和灰色代表非彩色概念。此外, 選取了18個褒義詞和貶義詞作為屬性詞。實驗程序參考Greenwald花蟲實驗七步驟程序流程, 選取其中第四步(相容任務(wù))和第七步(不相容任務(wù))的數(shù)據(jù)進行分析。每個步驟包含36個刺激項目, 共計72個刺激項目。在實驗中, 注視點(黑色加號+)呈現(xiàn)時間為500 ms, 被試要求在4000 ms內(nèi)做出按鍵反應(yīng), 否則刺激消失。實驗程序由E-prime 2.0編制, 所有數(shù)據(jù)均在計算機實驗室進行采集。實驗相關(guān)刺激材料見網(wǎng)絡(luò)版附錄2。
3.2 隨機效應(yīng)結(jié)構(gòu)探究
在不同實驗設(shè)計中, 被試與刺激項目安排不同, MEM的隨機效應(yīng)結(jié)構(gòu)也是不相同的(Baayen et al., 2008; Judd et al., 2012; Lee, 2018)。因此, 在進行混合MEM、獨立MEM、速度MEM和分開MEM分析前, 需要先確定LMEM和GLMEM的隨機效應(yīng)結(jié)構(gòu)特點(Judd et al., 2017)。當(dāng)實驗刺激項目和被試分別與不同實驗條件交叉時, 隨機效應(yīng)結(jié)構(gòu)包含被試和刺激項目的隨機截距和斜率(如式1和式4), 隨機效應(yīng)結(jié)構(gòu)在文中簡稱為S01I01。當(dāng)被試與不同實驗條件交叉, 但刺激項目嵌套于不同實驗條件時, 也就是重復(fù)測量實驗設(shè)計, 隨機效應(yīng)結(jié)構(gòu)不包含刺激項目隨機斜率, 簡稱為S01I0。當(dāng)刺激項目與不同實驗條件交叉, 而被試嵌套于不同實驗條件時, 隨機效應(yīng)結(jié)構(gòu)不包含被試隨機斜率, 簡稱為S0I01。當(dāng)被試和刺激項目都嵌套于各實驗條件時, 即為完全隨機實驗設(shè)計, 隨機效應(yīng)結(jié)構(gòu)只包含被試和刺激項目隨機截距, 簡稱為S0I0。
對于IAT實驗數(shù)據(jù)的隨機效應(yīng)結(jié)構(gòu)的探究, 采用混合效應(yīng)模型最常用的R語言lmerTest軟件包(Kuznetsova et al., 2017)進行分析, 其默認的參數(shù)估計方法為REML (Restricted Maximum Likelihood method)。lmerTest軟件包能夠提供模型擬合指數(shù)AIC和BIC, 用來評估不同隨機效應(yīng)結(jié)構(gòu)的模型擬合效果。模型擬合指數(shù)越小, 模型對數(shù)據(jù)的擬合越好, 隨機效應(yīng)結(jié)構(gòu)越符合實驗數(shù)據(jù)的特點。LMEM和GLMEM在不同隨機效應(yīng)結(jié)構(gòu)的擬合結(jié)果如表1所示。從表中可以看出, 對于反應(yīng)時數(shù)據(jù), LMEM- S01I0的AIC和BIC均優(yōu)于其他隨機效應(yīng)結(jié)構(gòu)的結(jié)果; 對于反應(yīng)數(shù)據(jù), GLMEM-S01I0比其他隨機效應(yīng)結(jié)構(gòu)模型的AIC和BIC表現(xiàn)更佳。這表明反應(yīng)與反應(yīng)時數(shù)據(jù)具有相同的隨機效應(yīng)結(jié)構(gòu)S01I0, 即包含被試隨機截距和斜率以及刺激項目隨機截距。這與以往的研究結(jié)果相一致(DeBruine et al., 2021; Judd et al., 2012, 2017)。后續(xù)分析將基于S01I0的隨機效應(yīng)結(jié)構(gòu)展開具體應(yīng)用與分析。
3.3 聯(lián)合模型分析
為了探究IAT實驗反應(yīng)和反應(yīng)時數(shù)據(jù)聯(lián)合與分開建模的結(jié)果特點與差異, 分別采用三個聯(lián)合模型和分開MEM應(yīng)用于IAT實驗數(shù)據(jù)。在HMC估計過程中, 設(shè)定2條馬爾科夫鏈, 每條鏈包含80000次迭代, 燃燒次數(shù)為60000次, 最后保留兩條鏈?zhǔn)S嗟墓?0000次迭代進行參數(shù)估計推斷。同時, 采用潛在量尺縮減因子(Potential Scale Reduction Factor, PSRF) (Brooks & Gelman, 1998)評估參數(shù)估計的收斂情況。文中選擇各參數(shù)的PSRF均要求小于1.1, 以確保參數(shù)估計已經(jīng)充分收斂。
對不同聯(lián)合模型的比較, 均采用貝葉斯思想構(gòu)建的WAIC (Widely Available Information Criterion)和LOO (Leave-One-Out cross-validation)兩個模型擬合統(tǒng)計量(Vehtari et al., 2017)進行評估。與傳統(tǒng)的模型擬合指數(shù)AIC、BIC和DIC相比, WAIC和LOO表現(xiàn)得更靈敏(Luo & Al-Harbi, 2017), 也更符合貝葉斯思想。WAIC和LOO值越小, 表明模型對數(shù)據(jù)擬合越好。
3.4 聯(lián)合模型結(jié)果
三個聯(lián)合模型和分開MEM的擬合結(jié)果如表2所示。從表中可以看出, 相比分開MEM, 獨立MEM的WAIC和LOO略小, 而混合MEM優(yōu)于獨立MEM和速度MEM。結(jié)果表明, 聯(lián)合建模比分開建模能更好地擬合IAT實驗數(shù)據(jù)。同時, 與其他聯(lián)合模型相比, 混合MEM的擬合指數(shù)明顯更優(yōu), 表明IAT實驗任務(wù)更傾向于反應(yīng)與反應(yīng)時的混合影響關(guān)系。
三個聯(lián)合模型以及分開MEM的固定和隨機效應(yīng)的參數(shù)估計值與標(biāo)準(zhǔn)誤如表3所示。在獨立MEM和分開MEM的各參數(shù)估計結(jié)果上, 兩者的估計值略有差異。同時, 獨立MEM的各參數(shù)標(biāo)準(zhǔn)誤普遍比分開MEM的更小, 表明聯(lián)合建模有利于提高參數(shù)估計穩(wěn)定性。在各聯(lián)合模型之間, 因建模假設(shè)的差異, 各模型的參數(shù)估計值差異較大。在反應(yīng)時數(shù)據(jù)上, 與混合MEM參數(shù)值相比, 獨立MEM的固定效應(yīng)參數(shù)值和較小, 而速度MEM的更大; 獨立MEM的隨機效應(yīng)參數(shù)除了被試隨機斜率變異的估計較小外, 在被試隨機截距、刺激項目的隨機截距和殘差變異的估計值都更大, 而速度MEM的所有隨機效應(yīng)參數(shù)的估計值都較大。在反應(yīng)數(shù)據(jù)上, 獨立MEM的參數(shù)估計值均低于混合MEM。
不同模型的被試與刺激項目的相關(guān)系數(shù)值如表4所示。從表中可以看出, 在被試水平上, 不同聯(lián)合模型與分開MEM的反應(yīng)時數(shù)據(jù)的隨機截距與斜率相關(guān)都呈現(xiàn)顯著的中等正相關(guān); 混合MEM、獨立MEM和分開MEM的反應(yīng)數(shù)據(jù)的被試隨機截距與斜率的相關(guān)分別為0.38、0.67和0.75, 但混合MEM的95%置信區(qū)間包含0; 混合MEM和獨立MEM的反應(yīng)與反應(yīng)時數(shù)據(jù)間的被試隨機效應(yīng)間的相關(guān)都呈現(xiàn)中等負相關(guān), 表明被試反應(yīng)越快, 準(zhǔn)確率越低。在刺激項目上, 混合MEM和獨立MEM都為負相關(guān), 且相關(guān)不顯著。已有研究也發(fā)現(xiàn)該參數(shù)很難被準(zhǔn)確估計(Sorensen et al., 2016)。
4 模擬研究
在聯(lián)合模型的復(fù)雜度上, 混合MEM最復(fù)雜, 其次是獨立MEM, 最后是速度MEM。在建模依據(jù)上, 混合MEM和獨立MEM是基于心理測量的理論假設(shè)構(gòu)建, 而速度MEM是基于認知過程的理論假設(shè)構(gòu)建?;旌螹EM和速度MEM分別代表了聯(lián)合模型的復(fù)雜度和理論依據(jù)的不同類型。為了使模
擬研究更具有代表性, 分別以混合MEM和速度MEM為基準(zhǔn)模型生成心理實驗數(shù)據(jù), 以有效地評估各模型的參數(shù)估計精度以及處理效應(yīng)識別性能。此外, 由于模擬研究旨在探究各模型的整體性能, 故假設(shè)各模型的隨機效應(yīng)結(jié)構(gòu)是已知的?;诖?, 文中展開了兩個模擬研究:模擬研究1以混合MEM為基準(zhǔn)模型, 探究未充分考慮實驗反應(yīng)和反應(yīng)時混合關(guān)系時, 對獨立MEM、速度MEM和分開MEM的參數(shù)估計和處理效應(yīng)識別的影響。模擬研究2則以速度MEM為基準(zhǔn)模型, 比較混合MEM、獨立MEM和分開MEM的性能表現(xiàn)。
4.1 模擬研究1
4.1.1 模擬條件設(shè)置
在模擬研究1中, 參考實證研究結(jié)果和Loeys等人(2011)的研究設(shè)置, 以混合MEM為基準(zhǔn)模型進行模擬研究。由于反應(yīng)準(zhǔn)確率常作為反應(yīng)時數(shù)據(jù)有效性的判斷標(biāo)準(zhǔn), 因此在模擬中固定了GLMEM的各參數(shù)值, 重點探討不同LMEM條件對三個聯(lián)合模型與分開MEM的影響。GLMEM各參數(shù)分別固定為、、、和。LMEM的模擬條件如表5所示。從表中可以看出,
C1條件為基準(zhǔn)條件, C2-C4分別為增加被試隨機截距( = 100和200)、被試隨機斜率( = 50和150)和刺激項目隨機截距( = 50和100)。同時, 實驗效應(yīng)根據(jù)Cohen's d值為無效應(yīng)量(d = 0)和中等效應(yīng)量(d = 0.5)時計算獲得(Brysbaert et al., 2018; Judd et al., 2017)。此外, 設(shè)置被試量(N = 30和60)、刺激項目(m = 30和60)和C1-C4交叉, 共4′2′2′2 = 32個條件組合, 每個條件重復(fù)100次。被試和刺激項目的相關(guān)矩陣和根據(jù)IAT實驗數(shù)據(jù)結(jié)果分別固定為
4.1.2 實驗數(shù)據(jù)生成
為了使生成的反應(yīng)與反應(yīng)時數(shù)據(jù)符合混合MEM的特點, 數(shù)據(jù)生成過程如下:首先, 根據(jù)被試與刺激項目的相關(guān)矩陣值(式12和13), 以及式(8)和式(9) (刪除), 生成被試和刺激項目的各隨機效應(yīng)參數(shù)值。然后, 根據(jù)生成每個被試在每個條件上刺激項目的殘差反應(yīng)時。接下來, 將固定效應(yīng)參數(shù)、、和分別代入反應(yīng)時模型LMEM (式1)和反應(yīng)模型GLMEM (式4)中, 生成被試的理論反應(yīng)時RT和反應(yīng)RA。其次, 限制每個刺激項目呈現(xiàn)時間為3000 ms, 并基于正態(tài)分布N (1500, )生成截尾時間CT。最后, 當(dāng)RT < CT且RA = 1時, 被試在刺激項目上的操作正確, 操作反應(yīng)時為RT; 當(dāng)RA = 0或RT > CT時, 被試在刺激項目上操作反應(yīng)時為截尾時間CT, 且操作錯誤; 當(dāng)RT和CT均大于3000 ms時, 被試的操作錯誤, 操作反應(yīng)時為3000 ms。
4.1.3 評價指標(biāo)
對參數(shù)估計精度, 采用平均相對偏差rbias進行評價, rbias的值越接近0意味參數(shù)的估計值與模擬值越接近, 結(jié)果越佳。
對于各模型的處理效應(yīng)識別性能, 分別采用第I類錯誤率與統(tǒng)計檢驗力進行評估(Judd et al., 2017; 溫忠麟 等, 2019)。第I類錯誤率指真值為0時, 估計值顯著不等于0的概率, 一般認為第I類錯誤率越接近真值0.05越好, 且0.025~0.075之間的范圍通常被認為是可接受的。統(tǒng)計檢驗力則指真值不為0時, 估計值顯著不等于0的概率。統(tǒng)計檢驗力越趨近于1, 模型性能越好。
4.1.4 參數(shù)估計結(jié)果
因模擬條件較復(fù)雜, 為了更好地展示模擬結(jié)果的趨勢及特點, 下面將采用矩陣圖的方式進行呈現(xiàn)。在矩陣圖中, 行變量和列變量的組合構(gòu)成一個單元格圖形。矩陣圖不僅可以在單個單元格內(nèi)比較, 還可以跨行和跨列比較不同變量條件的結(jié)果變化趨勢, 能更全面地反映結(jié)果特點。
在不同聯(lián)合模型與分開MEM中, LMEM各參數(shù)估計的相對偏差rbias如圖1所示。在獨立MEM與分開MEM的參數(shù)估計偏差上, 獨立MEM除了在被試隨機截距變異的估計偏差更大外, 其他參數(shù)上的估計偏差都要略小于分開MEM的。對于各聯(lián)合模型, 在不同被試和刺激項目量上, 不同參數(shù)的估計偏差在各個條件上的波動基本接近。在不同模擬條件C1-C4上, 增加被試隨機截距(C2)和隨機斜率(C3)變異后, 分別有利于降低各聯(lián)合模型的被試隨機截距和斜率的估計偏差, 這可能是增加了變異后更有利于識別被試之間的異質(zhì)性。在不同聯(lián)合模型上, 混合MEM各參數(shù)在不同條件上估計偏差較小; 獨立MEM和速度MEM除了在被試隨機截距變異和刺激項目隨機截距變異外, 其他參數(shù)都會被高估, 且速度MEM的估計偏差更嚴重。
由于速度MEM沒有建立反應(yīng)模型, 圖2只呈現(xiàn)了混合MEM、獨立MEM與分開MEM的GLMEM各參數(shù)估計的相對偏差結(jié)果。隨著被試和刺激項目量的增加, 分開MEM的各參數(shù)估計的相對偏差在不同模擬條件上都高于獨立MEM; 獨立MEM和混合MEM的GLMEM各參數(shù)估計偏差的波動趨勢相近, 且混合MEM的參數(shù)估計偏差更接近0, 而獨立MEM的和參數(shù)估計偏差明顯更大。
JqRbB5JTa7Ch1ui8GpoM2A==4.1.5 實驗處理效應(yīng)的識別性能比較
在模擬研究中設(shè)置了不同的效應(yīng)量, 文中通過不同模型的LMEM固定效應(yīng)參數(shù)的95%置信區(qū)間是否包含0, 來識別處理效應(yīng)的第I類錯誤率和統(tǒng)計檢驗力。
圖3呈現(xiàn)了處理效應(yīng)d = 0時, 不同聯(lián)合模型與分開MEM的第I類錯誤率。從圖中可以看出, 在不同模擬條件C1-C4上, 相比基準(zhǔn)水平(C1), 被試隨機截距變異增加(C2)會明顯提高第I類錯誤的概率, 而增大被試隨機斜率變異和刺激項目隨機截距變異后, 反而會降低獨立MEM和速度MEM的第I類錯誤率, 而分開MEM的第I類錯誤率則一直保持降低狀態(tài)。在不同聯(lián)合模型上, 混合MEM的第I類錯誤率都在可接受范圍, 而分開MEM、獨立MEM和速度MEM的第I類錯誤率都明顯超出可接受范圍, 特別是速度MEM和分開MEM的第I類錯誤率更高。
在處理效應(yīng)為中等效應(yīng)量d = 0.5時, 不同聯(lián)合模型與分開MEM的統(tǒng)計檢驗力的結(jié)果如圖4所示。在刺激項目為30時, 混合MEM在增大刺激項目隨機截距變異(C4)時的統(tǒng)計檢驗力最低。隨著被試和刺激項目量增加, 三個聯(lián)合模型與分開MEM的統(tǒng)計檢驗力都接近1。在整體上, 各模型都有較高的統(tǒng)計檢驗力, 且均達到0.9以上。
4.2 模擬研究2
4.2.1 模擬條件設(shè)置
在模擬研究2中, 參考實證研究結(jié)果和模擬研究1的參數(shù)設(shè)置, 以速度MEM為基準(zhǔn)模型進行模擬研究。鑒于速度MEM未構(gòu)建反應(yīng)模型, 模擬研究2中不涉及GLMEM各參數(shù)的設(shè)置。速度MEM的模擬條件與模擬研究1相同(如表5所示), 同時也設(shè)置被試量(N = 30和60)、刺激項目(m = 30和60)和C1-C4交叉, 共4′2′2′2 = 32個條件組合, 每個條件重復(fù)100次。基于IAT實驗數(shù)據(jù)結(jié)果, 被試隨機截距和斜率的相關(guān)矩陣固定為
4.2.2 實驗數(shù)據(jù)生成
為了使生成的數(shù)據(jù)符合速度MEM的特征, 數(shù)據(jù)生成過程如下:首先, 根據(jù)被試隨機截距和斜率的分布(式2)以及相關(guān)矩陣值(式15), 生成每個被試的隨機截距和斜率參數(shù)值。同時, 通過式(3) (刪除), 刺激項目的隨機截距服從, 生成每個刺激項目的隨機截距參數(shù)值。然后, 根據(jù)生成每個被試在每個條件上的刺激項目的殘差反應(yīng)時。之后, 將固定效應(yīng)參數(shù)和分別代入反應(yīng)時模型LMEM (式1), 生成不同被試在不同條件上的刺激項目的理論反應(yīng)時RT。為了使反應(yīng)準(zhǔn)確率與模擬研究1接近, 將截尾時間CT的分布設(shè)定為N(1000, ), 并且限制每個刺激項目呈現(xiàn)時間為3000 ms。最后, 當(dāng)RT < CT時, 被試在刺激項目上的操作正確, 操作反應(yīng)時為RT; 當(dāng)
RT > CT時, 被試在刺激項目上操作反應(yīng)時為截尾時間CT, 操作錯誤; 當(dāng)RT和CT均大于3000 ms, 操作錯誤, 操作反應(yīng)時為3000 ms。
4.2.3 評價指標(biāo)
模擬研究2的評價指標(biāo)與模擬研究1相同, 分別采用平均相對偏差rbias、第I類錯誤率和統(tǒng)計檢驗力對各模型進行評估, 具體見模擬研究1。
4.2.4 參數(shù)估計結(jié)果
鑒于速度MEM未涉及GLMEM, 僅呈現(xiàn)三個聯(lián)合模型和分開MEM的LMEM參數(shù)估計的相對偏差rbias, 結(jié)果如圖5所示。從圖中可以看出, 隨著被試與刺激項目量增加, 獨立MEM除了在被試隨機截距變異的估計偏差略大外, 其他參數(shù)的估計偏差都略低于分開MEM的, 表明獨立MEM有更高的估計精度。在不同聯(lián)合模型上, 增加被試隨機截距(C2)和斜率(C3)變異以及刺激項目隨機截距(C4)后, 獨立MEM的被試隨機截距和斜率參數(shù)以及刺激項目隨機截距參數(shù)明顯會被低估, 而混合MEM和速度MEM的各參數(shù)的估計偏差較小, 兩者差異不明顯。綜合而言, 分開MEM與獨立MEM各參數(shù)都呈現(xiàn)明顯的低估, 特別是分開MEM更嚴重, 而混合MEM和速度MEM的各參數(shù)估計精度較高。
4.2.5 實驗處理效應(yīng)的識別性能比較
83iRJu6bf0S3vcuhWoYv8/JiazDVwSJHfm/Sxv1kAvQ=圖6呈現(xiàn)了處理效應(yīng)d = 0時, 不同聯(lián)合模型與分開MEM的第I類錯誤率。從圖中可以看出, 在不同模擬條件C1-C4上, 分開MEM、獨立MEM和速度MEM的波動較大, 特別是分開MEM在C2和C3條件下的第I類錯誤率超出了可接受范圍, 而獨立MEM和速度MEM在C1和C3條件上也略微超出范圍。對于混合MEM, 在不同被試量和刺激項目上都表現(xiàn)得較為穩(wěn)定, 第I類錯誤率基本維持在可接受范圍內(nèi)。
當(dāng)處理效應(yīng)d = 0.5時, 不同模型的統(tǒng)計檢驗力如圖7所示?;旌螹EM和速度MEM在C3和C4條件上的統(tǒng)計檢驗力略高于獨立MEM和分開MEM。隨著被試和刺激項目量增加, 三個聯(lián)合模型以及分開MEM的統(tǒng)計檢驗力均趨于1??傮w而言, 各模型均展現(xiàn)出較高的統(tǒng)計檢驗力。
4.3 小結(jié)
綜合上述兩個模擬研究可以發(fā)現(xiàn), 在參數(shù)估計上, 分開MEM和獨立MEM在不同基準(zhǔn)模型上都存在明顯的估計偏差, 且獨立MEM的估計精度更高; 速度MEM在以混合MME為基準(zhǔn)模型時有較大估計偏差; 混合MEM在不同基準(zhǔn)模型上有較好的參數(shù)估計精度。在不同效應(yīng)量上, 分開MEM、獨立MEM和速度MEM在混合MEM基準(zhǔn)模型上具有較高的第I類錯誤率和統(tǒng)計檢驗力, 而在速度MEM基準(zhǔn)模型上結(jié)果趨近; 混合MEM在不同基
準(zhǔn)模型上都具有較低的第I類錯誤率和較高的統(tǒng)計檢驗力。綜合而言, 心理實驗的反應(yīng)與反應(yīng)時聯(lián)合建模優(yōu)于分開建模, 同時混合MEM在參數(shù)估計精度和實驗處理效應(yīng)識別具有更佳的表現(xiàn)。
5 討論與研究結(jié)論
5.1 討論與展望
在心理實驗研究中, 被試的反應(yīng)與反應(yīng)時是最常用的兩個因變量指標(biāo)?,F(xiàn)有研究更多對兩個因變量進行分開建模(Barr et al., 2013; Lee, 2018)。近年來, 聯(lián)合建模成為當(dāng)前數(shù)據(jù)分析的前沿?zé)狳c。心理測量(Lee et al., 2015; van der Linden, 2007)與認知過程(Ranger et al., 2015; Rouder et al., 2015)的聯(lián)合建模為心理實驗的反應(yīng)與反應(yīng)時數(shù)據(jù)的聯(lián)合分析提供了新視角?;诖?, 文中提出了混合MEM、獨立MEM和速度MEM三個聯(lián)合模型, 并與分開MEM進行比較。在IAT實驗數(shù)據(jù)中, 混合MEM的模型擬合指數(shù)優(yōu)于獨立MEM和速度MEM, 且分開MEM擬合最差。在模擬研究中, 獨立MEM估計精度高于分開MEM, 這與以往的研究相一致(Loeys et al., 2011; Man et al., 2019), 而混合MEM具有較小的估計偏差。在處理效應(yīng)識別上, 混合MEM始終具有較低的第I類錯誤和較高的統(tǒng)計檢驗力, 而分開MEM和其他聯(lián)合模型在混合MEM基準(zhǔn)模型上具有較高的第I類錯誤率和統(tǒng)計檢驗力。可能原因是, 在以混合MEM為基準(zhǔn)模型時, 獨立MEM和分開MEM會將被試因反應(yīng)時不足導(dǎo)致操作錯誤識別為認知能力不足, 進而使得GLMEM各參數(shù)被低估。同時, 獨立MEM和分開MEM將錯誤反應(yīng)時識別為完整的反應(yīng)時, 而速度MEM會將認知能力不足導(dǎo)致操作錯誤識別為反應(yīng)時不足, 這些錯誤的識別都會夸大LMEM各參數(shù)的變異, 進而導(dǎo)致較高的第I類錯誤率。此外, 在以速度MEM為基準(zhǔn)模型時, 獨立MEM和分開MEM會將截尾時間識別為完整時間, 從而導(dǎo)致LMEM各參數(shù)被明顯低估?;谏鲜鲅芯堪l(fā)現(xiàn), 將MEM的聯(lián)合建模方法應(yīng)用于心理實驗數(shù)據(jù)分析時, 需要注意以下幾個方面:(1)需要先確定數(shù)據(jù)的隨機效應(yīng)結(jié)構(gòu)。隨機效應(yīng)結(jié)構(gòu)可以基于已有文獻從理論出發(fā)進行確定, 也可以結(jié)合不同的指標(biāo)從數(shù)據(jù)驅(qū)動角度確定最佳的隨機效應(yīng)結(jié)構(gòu)。(2)在合理的理論假設(shè)基礎(chǔ)上構(gòu)建聯(lián)合模型。根據(jù)實驗任務(wù)類型確定不同數(shù)據(jù)間的理論假設(shè), 并基于此構(gòu)建相應(yīng)的聯(lián)合模型。(3)基于模型擬合統(tǒng)計量, 將不同模型應(yīng)用于實際數(shù)據(jù)。通過比較模型擬合指數(shù), 選擇最優(yōu)的擬合模型, 然后基于該模型解釋實驗數(shù)據(jù)結(jié)果。
文中對心理實驗數(shù)據(jù)的聯(lián)合建模取得了些有意義的發(fā)現(xiàn), 但是在心理實驗的實際應(yīng)用中仍然存在一些需要注意的問題。首先, 對聯(lián)合建模的反應(yīng)時分布假設(shè)需要進一步探討。文中LMEM假設(shè)反應(yīng)時服從正態(tài)分布, 但是已有研究指出反應(yīng)時數(shù)據(jù)也可能服從lognormal、weibull (Loeys et al., 2011)和wald (Miller et al., 2018)等其他分布, 甚至半?yún)?shù)的比例風(fēng)險模型(Ranger et al., 2012)。為了選擇恰當(dāng)?shù)姆磻?yīng)時模型, 應(yīng)采用相同的參數(shù)估計方法比較不同分布假設(shè)模型的擬合度, 以確定最佳的反應(yīng)時模型, 從而優(yōu)化聯(lián)合建模的效果。其次, 文中僅針對常用因變量反應(yīng)與反應(yīng)時數(shù)據(jù)進行了聯(lián)合建模分析, 但是聯(lián)合建模的框架可以整合更多的心理實驗數(shù)據(jù)集, 比如眼動(詹沛達, 2022)、鼠標(biāo)軌跡(Liang et al., 2023)以及腦電(Visalli et al., 2024)等, 這些數(shù)據(jù)提供了被試不同實驗操作的信息來源, 有助于從多角度更深入和全面地解釋被試的認知心理過程。同時, 在進行聯(lián)合建模時, 還需要對不同數(shù)據(jù)間的理論關(guān)系進行深入分析, 為聯(lián)合建模提供理論基礎(chǔ)。最后, 確定實驗數(shù)據(jù)的隨機效應(yīng)結(jié)構(gòu)是混合效應(yīng)模型應(yīng)用的基礎(chǔ)?,F(xiàn)有的混合效應(yīng)模型的隨機效應(yīng)結(jié)構(gòu)多采用似然比檢驗方法進行確定(Barr et al., 2013; Martínez-Huertas et al., 2022; Matuschek et al., 2017)。但是, 似然比檢驗方法是基于近似卡方分布的零假設(shè)檢驗方法進行推斷, 同時對卡方分布的近似依賴于大樣本特性, 存在明顯的局限性(Hoijtink et al., 2019)。相比傳統(tǒng)的假設(shè)檢驗方法, 貝葉斯因子(Bayes Factor)不依賴于大樣本假設(shè), 能更好地揭示備擇假設(shè)與虛無假設(shè)的相對可能性, 因此心理學(xué)界出現(xiàn)了以貝葉斯因子取代傳統(tǒng)假設(shè)檢驗的呼聲(胡傳鵬 等, 2018)。心理實驗研究通常為小樣本設(shè)計, 不太符合似然比檢驗方法的假設(shè)前提。隨著心理實驗設(shè)計的復(fù)雜度增加(Park et al., 2020), 文中遍歷所有隨機效應(yīng)結(jié)構(gòu)的方法并不是一種高效的方法, 因此有必要從貝葉斯因子角度去探究LMEM和GLMEM的隨機效應(yīng)結(jié)構(gòu)的確定。
5.2 研究結(jié)論
文中根據(jù)心理實驗反應(yīng)與反應(yīng)時數(shù)據(jù)的不同關(guān)系假設(shè)提出了不同聯(lián)合模型, 基于實證與模擬研究結(jié)果, 得出如下結(jié)論:
(1)相較于將心理實驗數(shù)據(jù)分開建模, 聯(lián)合建模能更為有效地整合不同數(shù)據(jù)信息, 從而提高參數(shù)估計精度和處理效應(yīng)的識別性能。在聯(lián)合建模假設(shè)中, IAT實驗任務(wù)更傾向于反應(yīng)與反應(yīng)時的混合影響。
(2)實證研究結(jié)果表明, 獨立MEM的模型擬合和參數(shù)估計優(yōu)于分開MEM, 而混合MEM的模型擬合優(yōu)于其他模型, 且參數(shù)估計差異較大。
(3)模擬研究結(jié)果表明, 獨立MEM在參數(shù)估計精度上優(yōu)于分開MEM, 而混合MEM在參數(shù)估計精度、第I類錯誤率和統(tǒng)計檢驗力上的綜合表現(xiàn)優(yōu)于其他模型。
參 考 文 獻
Ames, A. J., & Au, C. H. (2018). Using stan for item response theory models. Measurement: Interdisciplinary Research and Perspectives, 16(2), 129?134.
Baayen, R. H., Davidson, D. J., &MWfQN60sTu5RK7yqVJJlXZKNDbhgMVGIzJDPj+DUWVA= Bates, D. M. (2008). Mixed-effects modeling with crossed random effects for subjects and items. Journal of Memory and Language, 59(4), 390?412.
Barr, D. J., Levy, R., Scheepers, C., & Tily, H. J. (2013). Random effects structure for confirmatory hypothesis testing: Keep it maximal. Journal of Memory and Language, 68(3), 255?278.
Bolsinova, M., & Tijmstra, J. (2018). Improving precision of ability estimation: Getting more from response times. British Journal of Mathematical and Statistical Psychology, 71(1), 13?38.
Brooks, S. P., & Gelman, A. (1998). General methods for monitoring convergence of iterative simulations. Journal of Computational and Graphical Statistics, 7(4), 434?455.
Brown, S. D., & Heathcote, A. (2008). The simplest complete model of choice response time: Linear ballistic accumulation. Cognitive Psychology, 57(3), 153?178.
Brown, V. A. (2021). An introduction to linear mixed-effects modeling in R. Advances in Methods and Practices in Psychological Science, 4(1), 1?19.
Brysbaert, M., & Stevens, M. (2018). Power analysis and effect size in mixed effects models: A tutorial. Journal of Cognition, 1(1), 1?20.
Bunji, K., & Okada, K. (2020). Joint modeling of the two-alternative multidimensional forced-choice personality measurement and its response time by a thurstonian D- diffusion item response model. Behavior Research Methods, 52(3), 1091?1107.
DeBruine, L. M., & Barr, D. J. (2021). Understanding mixed- effects models through data simulation. Advances in Methods and Practices in Psychological Science, 4(1), 1?15.
Dixon, P. (2008). Models of accuracy in repeated-measures designs. Journal of Memory and Language, 59(4), 447?456.
Gelman, A., Lee, D., & Guo, J. (2015). Stan: A probabilistic programming language for bayesian inference and optimization. Journal of Educational and Behavioral Statistics, 40(5), 530?543.
Guo, X., Bai, X., & Luo, Z. (2024). Modeling the dependence between response and response time: A bifactor model approach. Acta Psychologica Sinica, 56(3), 352?364.
[郭小軍, 柏小云, 羅照盛. (2024). 作答時間與反應(yīng)依賴關(guān)系建模:基于雙因子模型視角. 心理學(xué)報, 56(3), 352? 362.]
Guo, X., Jiao, Y., Huang, Z., & Liu, T. (2022). Joint modeling of response accuracy and time in between-item multidimensional tests based on bi-factor model. Frontiers in Psychology, 13, 763959.
Hoffman, M. D., & Gelman, A. (2014). The no-U-turn sampler: Adaptively setting path lengths in hamiltonian monte carlo. Journal of Machine Learning Research, 15(1), 1593?1623.
Hoijtink, H., Mulder, J., van Lissa, C., & Gu, X. (2019). A tutorial on testing hypotheses using the bayes factor. Psychological Methods, 24(5), 539?556.
Hu, C. -P., Kong, X. -Z., Wagenmakers, E. -J., Ly, A., & Peng, K. (2018). The bayes factor and its implementation in JASP: A practical primer. Advances in Psychological Science, 26(6), 951?965.
[胡傳鵬, 孔祥禎, Eric-Jan Wagenmakers, Alexander Ly, 彭凱平. (2018). 貝葉斯因子及其在JASP中的實現(xiàn). 心理科學(xué)進展, 26(6), 951?965.]
Jaeger, T. F. (2008). Categorical data analysis: Away from ANOVAs (transformation or not) and towards logit mixed models. Journal of Memory and Language, 59(4), 434?446.
Judd, C. M., Westfall, J., & Kenny, D. A. (2012). Treating stimuli as a random factor in social psychology: A new and comprehensive solution to a pervasive but largely ignored problem. Journal of Personality and Social Psychology, 103(1), 54?69.
Judd, C. M., Westfall, J., & Kenny, D. A. (2017). Experiments with more than one random factor: Designs, analytic models, and statistical power. Annual Review of Psychology, 68(1), 601?625.
Klein Entink, R. H., van der Linden, W. J., & Fox, J. -P. (2009). A box-cox normal model for response times. British Journal of Mathematical and Statistical Psychology, 62(3), 621?640.
Kumle, L., V?, M. L., & Draschkow, D. (2021). Estimating power in (generalized) linear mixed models: An open introduction and tutorial in R. Behavior Research Methods, 53(6), 2528?2543.
Kuznetsova, A., Brockhoff, P. B., & Christensen, R. H. B. (2017). lmerTest package: Tests in linear mixed effects models. Journal of Statistical Software, 82(13), 1?26.
Lee, W. Y. (2018). Generalized linear mixed effect models with crossed random effects for experimental designs having non-repeated items: Model specification and selection. Vanderbilt University, Nashville.
Lee, Y. H., & Ying, Z. (2015). A mixture cure-rate model for responses and response times in time-limit tests. Psychometrika, 80(3), 748?775.
Liang, K., Tu, D., & Cai, Y. (2023). Using process data to improve classification accuracy of cognitive diagnosis model. Multivariate Behavioral Research, 58(5), 969?987.
Liu, Y., Xu, L., Liu, H., Han, Y., You, X., & Wan, Z. (2024). Confidence interval width contours: Sample size planning for linear mixed-effects models. Acta Psychologica Sinica, 56(1), 124?138.
[劉玥, 徐雷, 劉紅云, 韓雨婷, 游曉鋒, 萬志林. (2024). 置信區(qū)間寬度等高線圖在線性混合效應(yīng)模型樣本量規(guī)劃中的應(yīng)用. 心理學(xué)報, 56(1), 124?138.]
Loeys, T., Rosseel, Y., & Baten, K. (2011). A joint modeling approach for reaction time and accuracy in psycholinguistic experiments. Psychometrika, 76(3), 487?503.
Luo, Y., & Al-Harbi, K. (2017). Performances of LOO and WAIC as IRT model selection methods. Psychological Test and Assessment Modeling, 59(2), 183?205.
Ma, Z., Jia, J., & Wu, S. (2022). On the analysis of reaction time data through the use of mixed-effects models: Principles and practices. Foreign Language Learning Theory and Practice, 1, 35?46
[馬拯, 賈錦萱, 吳詩玉. (2022). 混合效應(yīng)模型框架下反應(yīng)時數(shù)據(jù)的分析: 原理和實踐. 外語教學(xué)理論與實踐, 1, 35?46.]
Man, K., Harring, J. R., Jiao, H., & Zhan, P. (2019). Joint modeling of compensatory multidimensional item responses and response times. Applied Psychological Measurement, 43(8), 639?654.
Martínez-Huertas, J. á., Olmos, R., & Ferrer, E. (2022). Model selection and model averaging for mixed-effects models with crossed random effects for subjects and items. Multivariate Behavioral Research, 57(4), 603?619.
Matuschek, H., Kliegl, R., Vasishth, S., Baayen, H., & Bates, D. (2017). Balancing type I error and power in linear mixed models. Journal of Memory and Language, 94, 305?315.
Meteyard, L., & Davies, R. A. I. (2020). Best practice guidance for linear mixed-effects models in psychological science. Journal of Memory and Language, 112, 1?22.
Miller, R., Scherbaum, S., Heck, D. W., Goschke, T., & Enge, S. (2018). On the relation between the (censored) shifted wald and the wiener distribution as measurement models for choice response times. Applied Psychological Measurement, 42(2), 116?135.
Park, J., Cardwell, R. L., & Yu, H. (2020). Specifying the random effect structure in linear mixed effect models for analyzing psycholinguistic data. Methodology, 16(2), 92?111.
Ranger, J. (2013). Modeling responses and response times in personality tests with rating scales. Psychological Test and Assessment Modeling, 55(4), 361?382.
Ranger, J., & Kuhn, J. -T. (2012). A flexible latent trait model for response times in tests. Psychometrika, 77(1), 31?47.
Ranger, J., Kuhn, J., & Gaviria, J. L. (2015). A race model for responses and response times in tests. Psychometrika, 80(2), 791?810.
Rietveld, T., & Van Hout, R. (2007). Analysis of variance for repeated measures designs with word materials as a nested random or fixed factor. Behavior Research Methods, 39(4), 735?747.
Rouder, J. N., Province, J. M., Morey, R. D., Gomez, P., & Heathcote, A. (2015). The lognormal race: A cognitive- process model of choice and latency with desirable psychometric properties. Psychometrika, 80(2), 491?513.
Sorensen, T., Hohenstein, S., & Vasishth, S. (2016). Bayesian linear mixed models using Stan: A tutorial for psychologists, linguists, and cognitive scientists. The Quantitative Methods for Psychology, 12(3), 175?200.
Suh, H. (2010). A study of bayesian estimation and comparison of response time models in item response theory. Unpublished doctoral dissertation. University of Kansas, Lawrence, KS.
van der Linden, W. J. (2007). A hierarchical framework for modeling speed and accuracy on test items. Psychometrika, 72(3), 287?308.
van der Maas, H. L. J., Molenaar, D., Maris, G., Kievit, R. A., & Borsboom, D. (2011). Cognitive psychology meets psychometric theory: On the relation between process models for decision making and latent variable models for individual differences. Psychological Review, 118(2), 339?356.
Vehtari, A., Gelman, A., & Gabry, J. (2017). Practical bayesian model evaluation using leave-one-out cross-validation and WAIC. Statistics and Computing, 27, 1413?1432.
Visalli, A., Montefinese, M., Viviani, G., Finos, L., Vallesi, A., & Ambrosini, E. (2024). lmeEEG: Mass linear mixed- effects modeling of EEG data with crossed random effects. Journal of Neuroscience Methods, 401, 109991.
Wen, Z., Tang, D., & Gu., H. (2019). A general simulation comparison of the predictive validity between bifactor and high-order factor models. Acta Psychologica Sinica, 51(3), 383?391.
[溫忠麟, 湯丹丹, 顧紅磊. (2019). 預(yù)測視角下雙因子模型與高階因子模型的一般性模擬比較. 心理學(xué)報, 51(3), 383?391.]
Zhan, P. (2022). Joint-cross-loading multimodal cognitive diagnostic modeling incorporating visual fixation counts. Acta Psychologica Sinica, 54(11), 1416?1423.
[詹沛達. (2022). 引入眼動注視點的聯(lián)合-交叉負載多模態(tài)認知診斷建模. 心理學(xué)報, 54(11), 1416?1423.]
Joint modeling of psychological experimental data: Mixed effects of reaction and reaction time
Abstract
Mixed-Effects Models (MEMs) have become a prominent trend in the analysis of psychological experiment data. MEMs can simultaneously treat both subjects and stimuli as random variables, effectively analyzing experimental effects and the associated differences between subjects (or stimuli). This approach avoids the issue of treating subjects or stimuli as fixed variables and consequently the high incidence of false positives, which is common in analysis of variance (ANOVA). Typically, in psychological experiments, reaction and reaction times are described and modeled separately. However, this separation hinders the full utilization and integration of different data from subjects to exploit maximum information from sample datasets.
Current psychometric and cognitive process models attempt to jointly analyze different data sources, providing insights for the joint modeling of psychological experiment data. In psychological experiments, a specific duration is typically set for each stimulus, and subjects are required to make a keystroke response within this period. This setup is similar to time-limited tests, but the tasks in psychological experiments are usually simpler. Based on this, the paper constructs three joint models: mixed MEM, independent MEM, and speed MEM. These models are compared with the separate model of reaction and reaction time data (i.e., separate MEM) in a series of studies.
In the analysis of IAT (Implicit Association Test) experiment data, the separate MEM was found to be inferior to the independent MEM in both data fitting and parameter estimation. The mixed MEM showed better model fit indices than both independent MEM and speed MEM. In the simulation studies, different comparisons were conducted using mixed MEM and speed MEM as benchmark models. The simulation results show that the relative bias in parameter estimation for separate MEM was generally greater than that for independent MEM, and it had a higher Type I error rate. Among the joint models, the independent MEM exhibited significant parameter estimate biases across benchmark models and also had high Type I error rates and statistical power. Similarly, the speed MEM was found to have comparable issues under mixed MEM simulation conditions. On the other hand, the mixed MEM was able to better identify parameters under different simulated scenarios compared to other joint models, and it had better Type I error rates and statistical power.
In conclusion, joint modeling is more advantageous than separate analysis in psychological experiments. Moreover, the reaction and reaction times in experimental tasks are more likely to have complex mixed influence relationships.
Keywords psychological experiment, reaction time, reaction, mixed-effects models, joint modeling
附錄1:混合MEM、獨立MEM和速度MEM待估參數(shù)的先驗分布
混合MEM和獨立MEM兩個模型的待估參數(shù)是完全相同, 且包含了速度MEM所有參數(shù), 因此各參數(shù)設(shè)定是相同的。
首先, 在被試隨機效應(yīng)上, 被試在反應(yīng)時與反應(yīng)上的隨機截距斜率服從均值向量為0, 協(xié)方差矩陣為的多元正態(tài)分布為:
其中協(xié)方差矩陣分解為:
在分解中, 以被試隨機截距與斜率的標(biāo)準(zhǔn)差、、和為對角元素對角矩陣, 其中和服從左截尾的正態(tài)分布和服從左截尾的標(biāo)準(zhǔn)正態(tài)分布為相關(guān)矩陣, 通過Cholesky分解為下三角矩陣乘積, 下三角矩陣服從分布為可以分解為, N為被試人數(shù), 為被試隨機效應(yīng)的標(biāo)準(zhǔn)化矩陣, 轉(zhuǎn)換為向量后服從標(biāo)準(zhǔn)正態(tài)分布。
其次, 反應(yīng)與反應(yīng)時的刺激項目隨機截距和服從均值向量為0, 協(xié)方差矩陣為的二元正態(tài)分布:
其中協(xié)方差矩陣分解為:
在分解中, 以刺激項目隨機截距的標(biāo)準(zhǔn)差和為對角元素的對角矩陣, 兩個標(biāo)準(zhǔn)差服從的分布為和為相關(guān)矩, 通過Cholesky分解為下三角矩陣乘積, 下三角矩陣服從分布為可以分解為, m為刺激項目數(shù), 為刺激項目隨機截距效應(yīng)的標(biāo)準(zhǔn)化矩陣, 轉(zhuǎn)換為向量后服從標(biāo)準(zhǔn)正態(tài)分布。
再次, 對反應(yīng)時殘差假設(shè)服從正態(tài)分布, 其標(biāo)準(zhǔn)差服從左截尾正態(tài)分布。
最后, 在固定效應(yīng)參數(shù)、、和的先驗分布, 假設(shè)和均服從柯西分布cauchy(0,2)。此外, 為了限制和兩參數(shù)的取值范圍, 找到反應(yīng)時數(shù)據(jù)最大值和最小值, 兩參數(shù)的先驗分布為:
在協(xié)方差矩陣先驗設(shè)置上, Lewandowski等(2009)發(fā)現(xiàn)基于分布比Wishart分布在多元正態(tài)分布協(xié)方差矩陣的估計中表現(xiàn)更為穩(wěn)健和有效, 因此在stan中推薦使用lkj_corr分布。
Lewandowski, D., Kurowicka, D., & Joe, H. (2009). Generating random correlation matrices based on vines and extended onion method. Journal of Multivariate Analysis, 100(9), 1989?2001.
附錄2: 顏色內(nèi)涵的內(nèi)隱傾向IAT實驗素材