王孟成 畢向陽
?
回歸混合模型:方法進(jìn)展與軟件實(shí)現(xiàn)*
王孟成1,2,3畢向陽4
(1廣州大學(xué)心理系;2廣州大學(xué)心理測量與潛變量建模研究中心;3廣東省未成年人心理健康與教育認(rèn)知神經(jīng)科學(xué)實(shí)驗(yàn)室, 廣州 510006) (4中國政法大學(xué)社會學(xué)院, 北京 102249)
近來以個(gè)體為分析對象的方法日益受到研究者的重視, 其中潛類別和潛剖面模型最為流行。研究者在潛類別和潛剖面模型建模時(shí)往往需要進(jìn)一步探討協(xié)變量與潛分組之間的關(guān)系(即帶有協(xié)變量的潛類別模型)。例如, 哪些變量預(yù)測個(gè)體類別歸屬, 以及個(gè)體的類別歸屬對結(jié)果變量的預(yù)測。本文對近年來研究者提出的各種方法進(jìn)行了回顧和比較。包括當(dāng)結(jié)果變量是分類變量的LTB法; 當(dāng)結(jié)果變量是連續(xù)變量時(shí)的BCH和穩(wěn)健三步法。在此基礎(chǔ)上, 文章為應(yīng)用研究者提供了M軟件示例, 并在最后對當(dāng)前研究存在的問題和未來研究趨勢進(jìn)行了簡要評價(jià)。
個(gè)體中心方法; 混合模型; 潛類別分析; 潛變量建模; M
傳統(tǒng)的分析方法多以變量為分析對象, 例如因素分析(factor analysis, FA)將條目分成不同的因子或維度。近年來以個(gè)體為中心(person- centered)的方法逐漸引起心理學(xué)研究者的興趣。其中潛類別分析(latent Class Analysis, LCA)和潛剖面分析(Latent Profile Analysis, LPA)是個(gè)體為中心分析方法中最基本也是最常用的分析方法(邱皓政, 2008; Collins & Lanza, 2010)。LCA在心理學(xué)、預(yù)防醫(yī)學(xué)、精神病學(xué)、市場營銷、組織管理等諸多領(lǐng)域已廣為使用(e.g., 張潔婷, 焦璨, 張敏強(qiáng), 2010)。
通常, 將LCA和FA作為測量模型, 因?yàn)閮烧叨际翘幚頋撟兞亢蜏y量指標(biāo)間關(guān)系的統(tǒng)計(jì)模型。與FA不同, LCA根據(jù)個(gè)體在觀測指標(biāo)上的作答反應(yīng)將其歸入特定的潛類別組(latent class)。然而LCA同F(xiàn)A一樣, 也可以進(jìn)一步拓展, 納入?yún)f(xié)變量(預(yù)測變量和結(jié)果變量)。納入?yún)f(xié)變量的FA即結(jié)構(gòu)方程模型(Structure Equation Model, SEM); 納入?yún)f(xié)變量的LCA稱作帶有協(xié)變量的潛類別模型以及更一般的形式——回歸混合模型(Regression Mixture Modeling, RMM; e.g., Clark & Muthén, 2009)。例如, 考察性別、種族等人口學(xué)變量對潛類別分組的影響。本文首先對近年來提出的處理帶有協(xié)變量的潛類別模型的新方法進(jìn)行逐一介紹; 同時(shí)以一個(gè)具體的分析實(shí)例演示不同處理方法的分析過程。文章最后對當(dāng)前研究存在的問題和將來的發(fā)展趨勢進(jìn)行簡要評價(jià)。
潛在類別分析或潛類別模型是通過類別潛變量來解釋外顯指標(biāo)間的關(guān)聯(lián), 使外顯指標(biāo)間的關(guān)聯(lián)通過潛在類別變量來估計(jì), 進(jìn)而維持其局部獨(dú)立性(local independence)的統(tǒng)計(jì)方法(見圖1) (邱皓政, 2008; Collins & Lanza, 2010)。其基本假設(shè)是, 外顯變量各種反應(yīng)的概率分布可以由少數(shù)互斥的潛在類別變量來解釋, 每種類別對各外顯變量的反應(yīng)選擇都有特定的傾向(邱皓政, 2008; Collins & Lanza, 2010)。與潛在類別分析非常相似的是潛在剖面分析, 區(qū)別在于前者處理分類變量, 后者分析連續(xù)變量。
圖1 LCA和LPA示意圖
可以從方差分析的角度理解LCA。方差分析的特點(diǎn)是將方差分解成不同的來源, 常見的有組間vs.組內(nèi)和被試間vs.被試內(nèi)。在LCA中, 可以將方差分解為類別內(nèi)和類別間(Sterba, 2013)。
根據(jù)局部獨(dú)立性假設(shè), 類別內(nèi)的任意兩個(gè)觀測指標(biāo)間的關(guān)聯(lián)已通過潛類別變量解釋, 所以它們之間已沒有關(guān)聯(lián)。根據(jù)獨(dú)立事件聯(lián)合發(fā)生的概率等于單獨(dú)發(fā)生概率之積的原理, 在每個(gè)類別內(nèi)部, 多個(gè)兩點(diǎn)計(jì)分項(xiàng)目的聯(lián)合概率可以表示為:
同時(shí)考慮多個(gè)類別水平時(shí), 上式擴(kuò)展為:
在應(yīng)用研究中, 研究者往往不僅關(guān)心將個(gè)體劃分到特定的潛類別組, 而且希望探索哪些變量可以預(yù)測個(gè)體的潛類別分組或不同的潛類別分組如何預(yù)測重要的結(jié)果變量。這兩種情況分別對應(yīng)包含預(yù)測變量(predictor variable)的LCA和包含結(jié)果變量(outcome variable或distal variable)的LCA, 如圖2所示。在左圖中, 類別潛變量C由測量指標(biāo)U測量; 左圖中預(yù)測變量X指向類別潛變量C的箭頭表示協(xié)變量影響個(gè)體類別歸屬。例如, 某研究試圖了解人口學(xué)變量對兒童行為問題潛類別歸屬的影響, 根據(jù)5個(gè)測量兒童行為問題的指標(biāo)將450名兒童分成4個(gè)潛類別組(即潛類別變量“問題行為”有4個(gè)水平), 然后做人口學(xué)變量(性別, 家庭經(jīng)濟(jì)地位和年齡等)對潛類別變量的回歸模型。在右圖中, 箭頭的方向從潛類別變量C指向結(jié)果變量y, 表示類別屬性(分類變量)預(yù)測結(jié)果變量。假設(shè)兒童問題行為潛類別歸屬可能會影響兒童學(xué)習(xí)成績。由于成績通常是連續(xù)變量, 所以此時(shí)為線性回歸。也可以理解為不同問題行為類別的兒童學(xué)習(xí)成績存在差異, 根據(jù)類別潛變量將兒童分成4組然后做方差分析。此時(shí)方差分析和線性回歸等價(jià)。
在回歸模型中, 通常是根據(jù)因變量的類型選擇對應(yīng)的回歸模型。左圖中, 類別變量C通常有2個(gè)及以上水平, 因此logistic回歸和多項(xiàng)logistic回歸是最常見的分析模型。右圖的回歸類型較為多樣, 主要取決于y變量的類型, 可能是線性回歸也可能是其他形式的回歸模型。下面的介紹包含了兩種不同協(xié)變量LCA的分析方法。
圖2 回歸混合模型示意圖
總的來說, 帶有預(yù)測變量的LCA的建模策略可以大致分成2大類:單步法和分步法(三步法)。顧名思義, 單步法在建模時(shí)一步完成所有模型(測量和結(jié)構(gòu))參數(shù)估計(jì); 而分步法則采用逐步建模的步驟完成參數(shù)估計(jì)。
(1)單步法
單步法(one-step method)在處理帶有協(xié)變量的LCA時(shí), 同時(shí)完成潛類別分組(測量模型部分)和協(xié)變量關(guān)系建模(結(jié)構(gòu)模型部分)。如果協(xié)變量是預(yù)測變量, 將其直接納入模型進(jìn)行分析, 協(xié)變量與潛類別變量的關(guān)系在LCA分析中同步完成??紤]協(xié)變量時(shí)的LCA表達(dá)式:
如果協(xié)變量是結(jié)果變量(圖2右圖), 只需將結(jié)果變量當(dāng)作LCA的測量指標(biāo)納入模型(具體見后文)。然而單步法存在如下幾點(diǎn)不足(Vermunt, 2010):
首先, 當(dāng)存在較多協(xié)變量時(shí), 單步法的實(shí)際操作性較差。在探索性研究中, 由于缺少相關(guān)研究或理論預(yù)期, 模型中常常包含多個(gè)預(yù)測變量。在單步法中, 不同協(xié)變量的納入和剔除都會影響測量模型(LCA)的結(jié)果, 使得整個(gè)分析過程非常繁瑣。
第二, 模型建模困難?;旌夏P徒_^程中最重要也是最復(fù)雜的問題是潛類別個(gè)數(shù)的確定, 包含協(xié)變量使得這一過程更加復(fù)雜。
第三, 單步法在實(shí)踐中不易為應(yīng)用研究者理解和掌握?;貧w混合模型的邏輯順序是先根據(jù)LCA將樣本分組; 接著以分組(潛)類別變量作為觀測自變量或因變量進(jìn)行回歸分析, 而在單步法中這些過程是一步完成的, 理解和解釋上較為抽象。
第四, 包含協(xié)變量的LCA模型可能會違反混合模型的前提假設(shè)如協(xié)變量在類別內(nèi)的方差相等或/和正態(tài)分布等(Bauer & Curran, 2003)。
由于單步法的上述困難和不足, 分析過程清晰的三步法受到方法學(xué)者和應(yīng)用研究者的廣泛關(guān)注(e.g., Morin, Morizot, Boudrias, & Madore, 2011)。
(2)簡單三步法
按照大多數(shù)應(yīng)用研究者的分析習(xí)慣, 在做混合模型(mixture modeling)①分析時(shí), 通常根據(jù)多個(gè)測量指標(biāo)采用LCA將樣本分成不同的潛類別組(測量模型部分)。然后將類別潛變量作為觀測類別變量進(jìn)行后續(xù)分析。常見的后續(xù)分析有:比較變量在潛類別組上的差異(獨(dú)立樣本檢驗(yàn)或方差分析); 其他變量預(yù)測類別潛變量或類別潛變量預(yù)測其它變量。
三步法的一般分析過程如圖3所示:(1)進(jìn)行常規(guī)的LCA模型估計(jì), 這一步只使用LCA的測量指標(biāo); (2)接著在第一步的基礎(chǔ)上根據(jù)后驗(yàn)概率獲得個(gè)體的類別歸屬變量即潛類別分組變量; (3)最后將潛類別分組變量作為觀測變量(分類變量)連同協(xié)變量進(jìn)行回歸分析。
簡單三步法也稱作最可能類別回歸法(Most Likely Class Regression; Clark & Muthén, 2009)②。這種方法符合應(yīng)用研究者的分析習(xí)慣, 在實(shí)踐中廣為使用。
圖3 簡單三步法的分析流程
然而三步法也存在一些不足, 通常會低估類別潛變量和協(xié)變量的關(guān)系, 分類誤差越大, 系數(shù)低估越明顯(Bolck, Croon, & Hagenaars, 2004; Vermunt, 2010)。LCA分析的關(guān)鍵在于分類精確性。分類精確性對于個(gè)體中心的方法來說可以理解為測量信度或測量誤差問題。如果分類誤差較大, 把不屬于某一類別的個(gè)體劃分到該類別將會影響整個(gè)分析結(jié)果的準(zhǔn)確性。針對簡單三步法存在測量誤差的問題, 近年來研究者提出了一些校正方法來減少分類誤差產(chǎn)生的影響(Bakk, Tekle, & Vermunt, 2013; Lanza, Tan, & Bray, 2013; Vermunt, 2010), 下面將逐一詳細(xì)介紹。
(3)概率回歸法和加權(quán)概率回歸法
這兩種方法的分析過程與簡單三步法類似, 也是分成三步。具體來說, 第一步依據(jù)觀測指標(biāo)將個(gè)體分類即執(zhí)行LCA分析。第二步將個(gè)體的后驗(yàn)概率進(jìn)行轉(zhuǎn)換再做回歸分析:(1)概率回歸法將后驗(yàn)概率進(jìn)行對數(shù)轉(zhuǎn)換, 轉(zhuǎn)換后的數(shù)值作為結(jié)果進(jìn)行回歸分析; (2)加權(quán)概率回歸法則根據(jù)后驗(yàn)分類結(jié)果直接與協(xié)變量進(jìn)行回歸但采用后驗(yàn)概率進(jìn)行加權(quán)。兩種方法都考慮了分類的不確定性, 與簡單三步法相比回歸系數(shù)的結(jié)果相對較為準(zhǔn)確, 但由于后驗(yàn)概率的估計(jì)本身也是存在誤差的, 所以回歸系數(shù)的顯著性檢驗(yàn)存在錯(cuò)誤結(jié)論的可能(Clark & Muthén, 2009)。
(4)虛擬類別法
LCA根據(jù)一次分析的后驗(yàn)概率將個(gè)體分組, 這種做法存在抽樣誤差的問題③。虛擬類別法(pseudoclass method, PC法)采用類似缺失值分析時(shí)使用的多重插補(bǔ)法, 從個(gè)體的后驗(yàn)概率分布中隨機(jī)抽取若干個(gè)(通常20次)可能的后驗(yàn)概率值④, 根據(jù)每次的概率值將個(gè)體分配到不同的類別, 然后平均若干次的結(jié)果作為最終的分類結(jié)果(Wang, Brown, & Bandeen-Roche, 2005)。
Clark和Muthén (2009)的模擬發(fā)現(xiàn), 當(dāng)分類精確性較高時(shí)(entropy > 0.8), 該方法表現(xiàn)較好; 然而在最近的模擬研究中發(fā)現(xiàn), 與穩(wěn)健三步法和單步法相比, 虛擬類別法在同等條件下表現(xiàn)最差 (Asparouhov & Muthén, 2014), 在實(shí)際應(yīng)用中并不被推薦使用。
(5)穩(wěn)健三步法或MML法
穩(wěn)健三步法由Vermunt (2010)在Bolck等(2004)的研究基礎(chǔ)上提出的。由于同時(shí)采用莫代爾分配法和極大似然估計(jì), 因此又稱作莫代爾極大似然估計(jì)法(Modal ML)。Asparouhov和Muthén (2014)將其稱作三步法(3-steps approach), 為了區(qū)分簡單三步法, 我們在這里將其稱作穩(wěn)健三步法。分析步驟同簡單三步法, 區(qū)別在于第二步考慮了分類誤差, 而簡單三步法并未處理分類誤差。穩(wěn)健三步法⑤的具體分析步驟如圖4。
圖4 穩(wěn)健三步法分析流程圖(Asparouhov & Muthén, 2014)
穩(wěn)健三步法最大的特點(diǎn)是在第二步考慮了分類誤差或不確定性。假設(shè)W是基于模型估計(jì)的類別潛變量, 與實(shí)際的類別潛變量C并不完全一致(完全一致時(shí)不存在分類誤差), 因此存在如下2個(gè)分類不確定率:
(6)修正的BCH法
BCH法最早由Bolck等(2004)提出, 用于處理包含分類預(yù)測變量的LCA。該方法與穩(wěn)健三步法邏輯類似, 區(qū)別在于穩(wěn)健三步法的第三步的估計(jì)方程采用極大似然估計(jì), 而BCH將其轉(zhuǎn)換成加權(quán)方差分析, 分類誤差作為權(quán)重。
與穩(wěn)健三步法相比, BCH法的一個(gè)突出優(yōu)點(diǎn)是不會改變潛類別的順序。潛類別順序的改變是極大似然估計(jì)的一個(gè)“副產(chǎn)品”。由于ML估計(jì)常常得到局部最大化解而非整體最大化解, 所以混合模型估計(jì)通常設(shè)置多個(gè)起始值, 而起始值通常由軟件隨機(jī)生成, 所以每次分析的起始值不同得到的潛類別結(jié)果可能不同, 潛類別的順序也可能不同。盡管使用相同的數(shù)據(jù)和指標(biāo), 所得到的擬合結(jié)果和類別數(shù)目也相同, 但類別潛變量水平的順序可能不同(第一個(gè)類別變成第二個(gè)類別), 因此給潛類別分析帶來很大的麻煩⑥。
BCH法的不足在于, 當(dāng)類別距離很小以及小樣本量時(shí), 類別內(nèi)的誤差方差可能是負(fù)值。此時(shí)如果把類別內(nèi)方差固定相等, 也可以獲得正確的類別組內(nèi)結(jié)果變量的均值(Bakk & Vermunt, 2016)。
就目前的模擬研究結(jié)果來看, 穩(wěn)健三步法和單步法是處理來有預(yù)測變量RMM最好的方法。根據(jù)通常的潛類別建模流程, 首先確定群體分類, 然后再在此基礎(chǔ)上做進(jìn)一步分析。穩(wěn)健三步法的分析過程清晰明確, 符合廣大應(yīng)用研究者的分析習(xí)慣而容易被接受。
總的來說, 包含結(jié)果變量的LCA比包含預(yù)測變量的LCA要復(fù)雜一些, 因?yàn)樵诤笳叩慕_^程中類別潛變量作為因變量只存在一種形式—— logistic或多項(xiàng)式logistic回歸。但在包含結(jié)果變量的LCA中, 結(jié)果變量存在兩種形式:連續(xù)和類別變量。下面分別介紹兩種不同形式結(jié)果變量的LCA分析方法。
2.2.1 結(jié)果變量是連續(xù)變量
(1) 單步法
結(jié)果變量是連續(xù)變量時(shí), 可以將結(jié)果變量當(dāng)作LCA模型的指標(biāo), 同時(shí)完成模型估計(jì)。當(dāng)局部獨(dú)立性滿足時(shí), LCA表達(dá)式為公式2, 當(dāng)納入連續(xù)的協(xié)變量Z后, 公式2改寫為聯(lián)合的形式:
單步法需要滿足重要的前提:連續(xù)結(jié)果變量在各類別內(nèi)正態(tài)分布。如果正態(tài)假設(shè)不成立則會改變測量模型的結(jié)構(gòu)及意義, 例如高估類別數(shù)(Bauer & Curran, 2003)。另外, 如果存在多個(gè)連續(xù)結(jié)果變量則更加復(fù)雜。假如采用每次只納入一個(gè)結(jié)果變量的建模策略, 則會產(chǎn)生LCA模型混淆的問題:納入不同結(jié)果變量間的LCA模型是不同的。
(2)LTB法
Lanza等(2013)最近提出了一種新的方法可以避免單步法違反假設(shè)時(shí)結(jié)果不準(zhǔn)確的問題, 因?yàn)檫@種方法并沒有特定的分布假設(shè)。在LTB法中, 首先將結(jié)果變量Z作為協(xié)變量納入LCA分析(過程同包含預(yù)測變量的單步法), 流程如圖5。
第二步計(jì)算結(jié)果變量在每個(gè)類別內(nèi)的均值(連續(xù)變量)或概率(類別變量)⑦:
當(dāng)連續(xù)結(jié)果變量的方差在不同類別內(nèi)相等時(shí)即同方差(homoskedastic errors), LTB法的估計(jì)結(jié)果是無偏的, 此時(shí)結(jié)果變量與潛類別變量之間呈linear-logistic關(guān)系。如果同方差不成立即異方差(heteroskedastic errors)時(shí), LTB法估計(jì)類別特定的均值存在偏差(Bakk & Vermunt, 2016)。另外, LTB方法處理多個(gè)連續(xù)結(jié)果變量時(shí)存在困難, 如果采用分別建模的方式將面臨單步法同樣的困境。
(3)修正的LTB法
針對LTB法的不足, Bakk等(2016)結(jié)合穩(wěn)健三步法的分析思想對LTB法進(jìn)行了修正, 并將其分成三步實(shí)現(xiàn), 因此這種方法與穩(wěn)健三步法分析過程非常相似(流程見圖6)。首先, 使用測量指標(biāo)建立LCA, 同時(shí)根據(jù)后驗(yàn)概率將個(gè)體分到不同的潛類別組N。第二步, 考慮分類誤差的前提下通過估計(jì)潛類別變量C, 同時(shí)將結(jié)果變量Z作為協(xié)變量納入分析(穩(wěn)健三步法并未納入?yún)f(xié)變量), 見公式11。
當(dāng)連續(xù)結(jié)果變量的方差在不同類別內(nèi)不相等時(shí)(類別內(nèi)異方差), LTB法的估計(jì)結(jié)果是有偏的。
圖6 修正的LTB法示意圖
針對此問題, Bakk等(2016)提出在多項(xiàng)式邏輯斯特回歸模型中加入二次項(xiàng)(公式12)來解決估計(jì)偏差的問題。
(4)修正BCH法
如前所述, BCH法⑧提出之初僅用于分析包含分類預(yù)測變量的LCA, 后來Vermunt (2010)對其進(jìn)行了修正, 使其可以處理各種類型的變量。
(5)穩(wěn)健三步法
穩(wěn)健三步法也可以用于處理結(jié)果變量是連續(xù)變量的LCA。包含連續(xù)結(jié)果變量的LCA模型表達(dá)式變?yōu)椋?/p>
模擬研究發(fā)現(xiàn)(Bakk et al., 2013; Lanza et al., 2013), 當(dāng)滿足假設(shè)條件時(shí)⑨, 穩(wěn)健三步法, BCH和LTB均可以得到無偏的參數(shù)估計(jì)結(jié)果(即類別特定的結(jié)果變量的均值)。然而, 當(dāng)條件不成立時(shí)(非正態(tài)、方差不同質(zhì)), 穩(wěn)健三步法和LTB表現(xiàn)較差, 而BCH法則表現(xiàn)的很穩(wěn)健(Bakk & Vermunt, 2016)。Asparouhov和Muthén (2015)通過模擬進(jìn)一步比較了穩(wěn)健三步法的兩種變式(即類別等方差和類別不等方差; 分別對應(yīng)M中的DE3STEP和DU3STEP), LTB法, 單步法, PC法和BCH法在連續(xù)結(jié)果變量非正態(tài)(雙峰分布)時(shí)的表現(xiàn), 結(jié)果進(jìn)一步證實(shí)了BCH的穩(wěn)健性(其他方法表現(xiàn)均不佳)。盡管如此, 當(dāng)類別距離或分類精確性較小時(shí)(比如entropy = 0.5), BCH也會低估標(biāo)準(zhǔn)誤。他們的結(jié)果還發(fā)現(xiàn), 當(dāng)組內(nèi)方差同質(zhì)性不成立時(shí), 方差不等的穩(wěn)健三步法(DU3STEP)和BCH法表現(xiàn)最佳, 且前者更優(yōu)。
2.2.2 結(jié)果變量是類別變量
LTB法在處理分類結(jié)果變量時(shí)表現(xiàn)較好, 不會像分析連續(xù)結(jié)果變量時(shí)出現(xiàn)違反正態(tài)和方差同質(zhì)假設(shè)后的估計(jì)偏差問題。在Asparouhov和Muthén (2014)的模擬研究中, 檢驗(yàn)了3個(gè)樣本量(N = 200, 500和2000)和2種分類精確性(entropy= 0.5和0.65)下LTB的表現(xiàn), 結(jié)果發(fā)現(xiàn)僅在N = 200和entropy = 0.5時(shí)才會出現(xiàn)明顯的偏差。
為了方便讀者對上述介紹的各種方法間的比較和選擇, 在Asparouhov和Muthén (2015)的基礎(chǔ)上, 表1匯總了帶有不同協(xié)變量LCA分析方法的使用條件和簡要評價(jià), 以便研究者選用。
實(shí)例數(shù)據(jù)來自中國人民大學(xué)2010~2011執(zhí)行的北京市城鎮(zhèn)老年人(60~95歲)焦慮癥狀調(diào)查, 有效樣本量1292⑩。本例中使用了其中的簡版老年抑郁量表(GDS-15)總分(gds)、生活自理狀況共16個(gè)題項(xiàng)(C2A-C2Q), 選項(xiàng)編碼為:1. 不費(fèi)力; 2. 有些困難; 3. 做不了)、年齡(連續(xù)變量)、“覺得自己現(xiàn)在老嗎” (二分變量, ifold)等題目。
表1 各種情況處理方法匯總表
下面通過這個(gè)實(shí)例簡單的介紹通過M軟件如何執(zhí)行上述各變量類型和方法。這里我們對生活自理狀況量表進(jìn)行潛類別分析, 然后依次加入預(yù)測變量和結(jié)果變量。
(1)潛類別分析
首先, 使用老年人生活自理狀況量表的15個(gè)條目進(jìn)行潛類別分析。分別擬合2~4個(gè)類別。通過模型比較后選擇2個(gè)類別模型為最優(yōu)模型(對應(yīng)M語句見網(wǎng)絡(luò)版附表1)。此時(shí), Entropy = 0.965, 提示較高的分類精確度。根據(jù)條目的實(shí)際意義, 將兩個(gè)類別分別命名為“不能自理類”和“能夠自理類”, 分別占比15.3%和84.7%。圖7呈現(xiàn)了兩個(gè)類別的條件概率。
(2)加入預(yù)測變量的回歸混合模型
在保留的兩個(gè)類別模型基礎(chǔ)上加入連續(xù)預(yù)測變量(年齡), 預(yù)測潛類別變量, 采用R3STEP法, 相應(yīng)的M語句見網(wǎng)絡(luò)版附表2。
如前所述, 因變量為分類潛變量, 這里的回歸方程為多項(xiàng)式logistic回歸。軟件默認(rèn)第2個(gè)類別組為參照組(reference group)。結(jié)果表明(見網(wǎng)絡(luò)版附表3)年齡對第一個(gè)類別的回歸系數(shù)為0.153, SE = 0.014,< 0.001,說明年齡有助于預(yù)測老人所屬的類別組。相對于第二類別組(可以自理組), 年齡每大一歲屬于第一類別組(不能自理組)的發(fā)生比要高16.5%。
圖7 兩類別在選項(xiàng)3上的條件概率
(3)加入分類結(jié)果變量的回歸混合模型
同樣地, 在保留兩個(gè)類別模型基礎(chǔ)上加入自我感覺“是否老了”作為結(jié)果變量。該變量有2個(gè)選項(xiàng), 所以采用DCAT法, 語句見網(wǎng)絡(luò)版附表4。
分析結(jié)果表明(見網(wǎng)絡(luò)版附表5), 相比于生活自理類別組, 生活不能自理類別的老人其“老人身份認(rèn)同”的程度要高。具體結(jié)果是, 生活不自理類別組選擇“覺得自己老了”的概率是0.735, “覺得自己未老”的概率是0.265; 而生活能自理組對應(yīng)的選擇是0.435和0.565。
(4)加入連續(xù)結(jié)果變量的回歸混合模型
加入自評抑郁得分作為結(jié)果變量, 采用DCAT法, 語句見網(wǎng)絡(luò)版附表6。兩個(gè)類別組抑郁自評得分分別為:4.54和2.90, 差異顯著(< 0.001)。此結(jié)果表明(見網(wǎng)絡(luò)版附表7), 平均來講, 生活不能自理的老人, 抑郁程度要顯著高于生活能夠自理的老人。
總的來說, 回歸混合模型目前可以分為兩大類別:帶有協(xié)變量的潛在類別模型和混合結(jié)構(gòu)方程模型。本文主要討論的帶有協(xié)變量的潛在類別模型的最新研究方法和軟件實(shí)現(xiàn)。針對帶有協(xié)變量的潛在類別模型又可以分成兩種不同的類型:包含預(yù)測變量和結(jié)果變量的模型。就目前的方法學(xué)研究來看, 當(dāng)結(jié)果變量是分類變量時(shí), LTB法是最佳選擇; 當(dāng)結(jié)果變量是連續(xù)變量時(shí)BCH和穩(wěn)健三步法是最佳選擇。針對協(xié)變量是預(yù)測變量的潛在類別模型時(shí), 穩(wěn)健三步法是最佳選擇。
混合模型作為潛變量建模的發(fā)展趨勢之一, 到目前為止仍處在發(fā)展的初期, 很多方法都在探索階段。盡管已有少數(shù)應(yīng)用研究發(fā)表, 但總體來說目前應(yīng)用研究尚不多。同樣地, 回歸混合模型作為混合模型的一個(gè)分支目前也還是個(gè)開放的研究領(lǐng)域, 多數(shù)方法是最近3~5年提出的, 而且更新的速度非???。盡管本文介紹的都是最新的方法, 然而需要注意的是, 在處理不同協(xié)變量時(shí)所推薦的方法都是小規(guī)模模擬研究的結(jié)果, 尚需更多模擬研究驗(yàn)證拓展。
另外, 這些方法在處理實(shí)際問題時(shí)可能存在一些問題, 比如同時(shí)存在預(yù)測變量和結(jié)果變量的情景。在實(shí)踐中這種情景還是非常普遍的, 但目前尚未有合適的方法。盡管如此, 回歸混合模型作為新的方法為我們分析傳統(tǒng)問題提供了新的視角。
邱皓政. (2008).. 北京: 教育科學(xué)出版社.
張潔婷, 焦璨, 張敏強(qiáng). (2010). 潛在類別分析技術(shù)在心理學(xué)研究中的應(yīng)用.(12), 1991–1998.
Asparouhov, T., & Muthén, B. (2014). Auxiliary variables in mixture modeling: Three-step approaches using M.,(3), 329–341.
Asparouhov, T., & Muthén, B. (2015)..MWeb Notes: No. 21. Retrieved from http:// www.statmodel.com
Bakk, Z., Oberski, D. L., & Vermunt, J. K. (2016). Relating latent class membership to continuous distal outcomes: Improving the LTB approach and a modified three-step implementation.,(2),278–289.
Bakk, Z., Tekle, F. B., & Vermunt, J. K. (2013). Estimating the association between latent class membership and external variables using bias-adjusted three-step approaches.(1), 272–311.
Bakk, Z., & Vermunt, J. K. (2016). Robustness of stepwise latent class modeling with continuous distal outcomes.(1),20–31.
Bauer, D. J., & Curran, P. J. (2003). Distributional assumptions of growth mixture models: Implications for overextraction of latent trajectory classes.(3), 338–363.
Bolck, A., Croon, M., & Hagenaars, J. (2004). Estimating latent structure models with categorical variables: One-step versus three-step estimators.(1), 3–27.
Clark, S. L., & Muthén, B. (2009).. Retrieved from http://statmodel2.com/download/relatinglca.pdf
Collins, L. M., & Lanza, S. T. (2010).. New York: Wiley.
Lanza, S. T., Tan, X., & Bray, B. C. (2013). Latent class analysis with distal outcomes: A flexible model-based approach.,(1), 1–26.
Morin, A. J. S., Morizot, J., Boudrias, J-S., & Madore, I. (2011). A multifoci person-centered perspective on workplace affective commitment: A latent profile/factor mixture analysis.,(1), 58–90.
Sterba, S. K. (2013). Understanding linkages among mixture models.(6)775–815.
Vermunt, J. K. (2010). Latent class modeling with covariates: Two improved three-step approaches.,, 450–469.
Wang C-P., Brown, C. H., & Bandeen-Roche, K. (2005). Residual diagnostics for growth mixture models: Examining the impact of a preventive intervention on multiple trajectories of aggressive behavior.(471), 1054–1076.
附錄
附表1 潛類分析M語句
Title: Lantent Class AnalysisData: File is older_survey.dat ;Variable: Names = C2A C2B C2C C2D C2E C2F C2G C2H C2I C2J C2K C2L C2M C2N C2P C2Q ifold age gds agesq?; USEVARIABLES = C2A-C2Q; MISSING are all (-9999) ; CATEGORICAL = C2A-C2Q; CLASSES = C (2);Analysis: TYPE = MIXTURE; Starts = 50 3; PROCESSORS = 4; !根據(jù)電腦情況指定PLOT: TYPE = PLOT3; SERIES = C2A-C2Q (*);Savedata: file is older_survey.txt ; save is cprob; output: tech11 tech14;
附表2 加入預(yù)測變量回歸混合模型的M語句
附表3 加入預(yù)測變量回歸混合模型輸出結(jié)果(部分)
附表4 加入分類結(jié)果變量回歸混合模型的M語句
附表5 加入分類結(jié)果變量回歸混合模型輸出結(jié)果(部分)
附表6 加入連續(xù)結(jié)果變量回歸混合模型的Mplus語句
表7 加入連續(xù)結(jié)過變量回歸混合模型輸出結(jié)果(部分) ①混合模型比LCA和LPA更具一般的形式。 ②根據(jù)最大后驗(yàn)概率將個(gè)體分入到不同的潛類別組, 然后以該分組變量進(jìn)行回歸分析, 因此得名。 ③這里類似參數(shù)估計(jì)的點(diǎn)估計(jì), 為了考慮抽樣誤差的影響通常采用區(qū)間估計(jì)。 ④因?yàn)榇嬖诜诸惒淮_定性所以抽取多個(gè)可能值作為分類誤差。 ⑤在Mplus中, 穩(wěn)健三步法有兩種實(shí)現(xiàn)形式:自動(dòng)和手動(dòng)。自動(dòng)形式只需采用AUXILIARY的R3STEP選項(xiàng), 軟件自動(dòng)完成上述3步分析。手動(dòng)形式需要分別執(zhí)行兩步分析。第一步, 單獨(dú)執(zhí)行LCA分析, 獲得分類錯(cuò)誤率的對數(shù)形式。第二步, 在這一步分析中, 將第一步保留的分組變量N的均值固定為分類錯(cuò)誤率的對數(shù)值。 ⑥在穩(wěn)健三步法分析中, Mplus自動(dòng)監(jiān)測順序改變問題, 一旦發(fā)生順序改變, Mplus將不報(bào)告結(jié)果(Asparouhov & Muthen, 2015)。 ⑦自變量是分類變量(這里的潛類別變量)因變量是連續(xù)變量的回歸模型等價(jià)于單因素方差分析。 ⑧在Mplus里, 使用BCH分析包含結(jié)果變量RMM時(shí)非常方便, 只需一步即可實(shí)現(xiàn), 例句見表2-8。 ⑨ ML和BCH假設(shè)連續(xù)結(jié)果變量在類別內(nèi)的分布為正態(tài)分布。 ⑩參見中國國家調(diào)查數(shù)據(jù)庫:http://www.cnsda.org/index. php?r=projects/view&id=60493698。感興趣的讀者可以自行下載數(shù)據(jù)嘗試根據(jù)附表相應(yīng)代碼進(jìn)行分析。 ?年齡平方項(xiàng)(/100) Regression mixture modeling: Advances in method and its implementation WANG Meng-Cheng1,2,3; BI Xiangyang4 (1 Department of Psychology, Guangzhou University; 2 The Center for Psychometric and Latent Variable Modeling, Guangzhou University; 3The Key Laboratory for Juveniles Mental Health and Educational Neuroscience in Guangdong Province, Guangzhou University, Guangzhou 510006, China) (4 School of Sociology, China University of Political Science and Law, Beijing 102249, China) Abstract: The person-centered methods, including latent class analysis (LCA) and latent profile analysis (LPA), are increasingly popular in recent years. Researchers often add covariate variables (i.e., predictor and distal variables) into LCA and LPA models. This kind of models are also called regression mixture models. In this paper, we introduce several new methods. Those methods include (1) the LTB method proposed by Lanza, Tan and Bray (2013) to model categorical outcome variables; and (2) the BCH method proposed by Bolck, Croon and Hagenaars (2004) to deal with continuous distal variables. Using an empirical example, we demonstrate the process of analyses in Mplus. The future directions of those new methods were also discussed. Key words: person-centered method, mixture modeling, latent class analysis, latent variable modeling, Mplus 分類號 B841 DOI: 10.3724/SP.J.1042.2018.02272 收稿日期:2017-03-04 * 國家自然科學(xué)基金(31400904); 廣州大學(xué)“創(chuàng)新強(qiáng)校工程”青年創(chuàng)新人才類項(xiàng)目(2014WQNCX069); 廣州大學(xué)青年拔尖人才培養(yǎng)項(xiàng)目(BJ201715)。 兩位作者對本文貢獻(xiàn)相同。 通信作者:畢向陽, E-mail: necessity@126.com; 王孟成, E-mail: wmcheng2006@126.com