黃菲菲+張敏強(qiáng)
摘要社會(huì)網(wǎng)絡(luò)分析是對(duì)社會(huì)關(guān)系進(jìn)行量化分析的技術(shù)。社會(huì)網(wǎng)絡(luò)分析應(yīng)用中常遇到缺失數(shù)據(jù),缺失數(shù)據(jù)處理不當(dāng)會(huì)影響測(cè)量誤差、降低統(tǒng)計(jì)功效,甚至扭曲研究結(jié)果。在闡述社會(huì)網(wǎng)絡(luò)分析中缺失數(shù)據(jù)的原因和缺失機(jī)制的基礎(chǔ)上,梳理了社會(huì)網(wǎng)絡(luò)分析的四種缺失數(shù)據(jù)處理方法的原理,分析比較了四種方法在實(shí)際應(yīng)用中的優(yōu)缺點(diǎn)。社會(huì)網(wǎng)絡(luò)分析方法在心理學(xué)中的研究應(yīng)用應(yīng)在考慮缺失概率和缺失機(jī)制的前提下,恰當(dāng)選擇缺失數(shù)據(jù)的處理方法。
關(guān)鍵詞社會(huì)網(wǎng)絡(luò)分析; 缺失數(shù)據(jù); 缺失數(shù)據(jù)處理方法
分類(lèi)號(hào)B841.2
DOI:10.16842/j.cnki.issn2095-5588.2016.08.0021引言
“社會(huì)網(wǎng)絡(luò)分析” (Social Network Analysis, SNA)是在人類(lèi)學(xué)、社會(huì)學(xué)、心理學(xué)等眾多領(lǐng)域中發(fā)展起來(lái)的研究個(gè)體之間關(guān)系結(jié)構(gòu)的分析方法,是對(duì)社會(huì)關(guān)系進(jìn)行量化分析的一門(mén)藝術(shù)和技術(shù)。SNA主要用于描述和測(cè)量個(gè)體之間的關(guān)系以及這些關(guān)系中所包含的資源、信息等,并根據(jù)這些關(guān)系建立模型,進(jìn)而研究關(guān)系與行為之間的相互影響(劉軍, 2004)。SNA從“關(guān)系”角度來(lái)揭示社會(huì)情境與嵌套于其中的個(gè)體的心理和行為的互動(dòng)影響,即個(gè)體可以能動(dòng)地構(gòu)造他們的關(guān)系網(wǎng)絡(luò)(選擇效應(yīng),selection effect),同時(shí)這些關(guān)系又反過(guò)來(lái)影響個(gè)體的心理與行為(影響效應(yīng),influence effect)。因此,個(gè)體既形塑社會(huì)網(wǎng)絡(luò),也被社會(huì)網(wǎng)絡(luò)形塑(劉軍, 2006; 馬紹奇, 2012; 馬紹奇, 焦璨, 張敏強(qiáng), 2011 )。在SNA中,反映個(gè)體之間關(guān)系的數(shù)據(jù)稱(chēng)為關(guān)系數(shù)據(jù)(relational data),通常的數(shù)據(jù)類(lèi)型是0、1二分變量數(shù)據(jù),即1表示兩個(gè)行動(dòng)者之間存在關(guān)系,0表示不存在關(guān)系(馬紹奇, 2012)。
SNA從嵌入社會(huì)情境的個(gè)體之間的關(guān)系出發(fā),分析群體結(jié)構(gòu)及其與心理行為的相互作用,更能反映人際交往的社會(huì)性特點(diǎn)。如,運(yùn)用SNA方法系統(tǒng)研究中學(xué)生班級(jí)的學(xué)習(xí)關(guān)系、友誼關(guān)系、咨詢(xún)關(guān)系、信息交流關(guān)系等,運(yùn)用SNA方法研究中學(xué)生的支持網(wǎng)絡(luò)對(duì)中學(xué)生學(xué)業(yè)和心理健康等方面的影響。這不僅有利于從社會(huì)關(guān)系的視角理解學(xué)生人際關(guān)系的形成、特征和影響因素,還能及時(shí)掌握學(xué)生的心理動(dòng)態(tài),維護(hù)學(xué)生的心理健康(唐文清等, 2014)。但是,由于SNA的應(yīng)用涉及到更多的人事物,數(shù)據(jù)的缺失是必然現(xiàn)象。研究者在SNA中常常會(huì)遇到數(shù)據(jù)應(yīng)答率在65%至90%的情況(Albrecht, 1984; Dean & Brass, 1985; Moch, 1980; Monge, Edwards, & Kirste, 1983; Roberts & O′Reilly, 1978, 1979)。此外,由于數(shù)據(jù)結(jié)構(gòu)的依賴(lài)性,如果網(wǎng)絡(luò)中的行動(dòng)者或者關(guān)系存在缺失,就難以全面地描述缺失行動(dòng)者及其鄰近行動(dòng)者的網(wǎng)絡(luò)環(huán)境(Robins, Pattison, & Woolcock, 2004)。已有研究發(fā)現(xiàn),缺失數(shù)據(jù)不僅對(duì)網(wǎng)絡(luò)結(jié)構(gòu)描述產(chǎn)生消極影響,還會(huì)低估關(guān)系強(qiáng)弱和聚類(lèi)系數(shù),并使得中心性和度數(shù)的測(cè)量出現(xiàn)不穩(wěn)定的情況(Burt, 1987; Borgatti & Molina, 2003; Costenbader & Valente, 2003; Kossinet, 2006; Huisman, 2009)。這說(shuō)明,網(wǎng)絡(luò)結(jié)構(gòu)描述和網(wǎng)絡(luò)數(shù)據(jù)分析的結(jié)果會(huì)因?yàn)槿笔?shù)據(jù)而產(chǎn)生偏差。
心理技術(shù)與應(yīng)用4卷
8期黃菲菲張敏強(qiáng): 社會(huì)網(wǎng)絡(luò)分析中缺失數(shù)據(jù)的處理方法
要使SNA方法得到更好的應(yīng)用及認(rèn)可,既要介紹理論及應(yīng)用方法,同時(shí)還要解決方法使用中可能出現(xiàn)的各種問(wèn)題。例如,在數(shù)據(jù)收集和研究結(jié)論的推廣方面,如何在實(shí)際的應(yīng)用分析中,完善相關(guān)的統(tǒng)計(jì)模型和參數(shù)估計(jì)方法的發(fā)展,如何提高數(shù)據(jù)收集的信效度,如何處理缺失值等問(wèn)題(馬紹奇, 焦璨, 張敏強(qiáng), 2011; 焦璨, 吳換杰, 黃玥娜, 黃菲菲, 張敏強(qiáng), 2014)。由于社會(huì)網(wǎng)絡(luò)數(shù)據(jù)的相互依賴(lài)性,對(duì)缺失數(shù)據(jù)的處理不能采用常規(guī)的缺失處理方法。本文就SNA中缺失數(shù)據(jù)的原因及缺失機(jī)制,比較分析了常用的四種缺失數(shù)據(jù)處理方法在實(shí)際應(yīng)用中的優(yōu)缺點(diǎn),并就SNA中如何處理缺失數(shù)據(jù)提出建議。
2缺失數(shù)據(jù)的原因
21邊界規(guī)范問(wèn)題
邊界規(guī)范問(wèn)題指的是在網(wǎng)絡(luò)研究中指定行動(dòng)者或者關(guān)系之間包含的規(guī)則(Laumann, Marsden, & Prensky, 1983)。例如,學(xué)者在研究青少年的冒險(xiǎn)行為過(guò)程中,想了解他們?cè)趯W(xué)校里的人際關(guān)系情況。圖1中的A、B、C、D是四位青少年在學(xué)校里的人際關(guān)系網(wǎng)絡(luò),E、F、G三位青少年雖然和A、B、C、D四位青少年的交往密切,但是學(xué)校外的人際關(guān)系與研究目的無(wú)關(guān),因此,E、F、G三者和研究中的青少年的人際關(guān)系就容易被忽視(Valente, Fujimoto, Unger, Soto, & Meeker, 2013)??傮w而言,邊界規(guī)范是由研究者自行決定的。在實(shí)際包含網(wǎng)絡(luò)的例子中,組織成員或者由位置界定的正式定義大部分取決于一個(gè)正式組織團(tuán)隊(duì)中成員占據(jù)的排列位置,例如一個(gè)學(xué)校最受歡迎的前10名老師或者一個(gè)班級(jí)成績(jī)最好的前五名同學(xué)(Kossinets, 2006)。
社會(huì)網(wǎng)絡(luò)是由行動(dòng)者及行動(dòng)者之間的關(guān)系組成的,因此研究者在規(guī)范網(wǎng)絡(luò)邊界時(shí),除了需要考慮通過(guò)一組行動(dòng)者來(lái)界定網(wǎng)絡(luò)邊界外,還要決定哪些關(guān)系應(yīng)該納入研究范圍里。對(duì)于如何有效地規(guī)范網(wǎng)絡(luò)邊界,學(xué)者們提出了一個(gè)準(zhǔn)則,即根據(jù)可測(cè)量行動(dòng)者的交互作用確定。因此,研究中的網(wǎng)絡(luò)邊界被定義為該邊界記錄了在特定情境中行動(dòng)者間的交互作用(Laumann, Marsden, & Prensky, 1983)。但是,無(wú)論是情景還是交互作用的設(shè)置,研究者首先需要根據(jù)研究目的給出操作性定義,然后再確定在這個(gè)情境中包含哪些存在交互作用的行動(dòng)者。隨著電子科技時(shí)代的發(fā)展與進(jìn)步,這個(gè)準(zhǔn)則不再僅限于小網(wǎng)絡(luò),因?yàn)榇笠?guī)模的社會(huì)網(wǎng)絡(luò)交互作用數(shù)據(jù)可以通過(guò)郵件傳遞或者虛擬社區(qū)的記錄得到(Newman, 2002; Ebel, Mielsch, & Bornholdt, 2002; Guimera, Danon, DiazGuilera, Giralt, & Arenas, 2003; Holme, Edling, & Lijeros, 2004)。
22固定選擇的研究設(shè)計(jì)
固定選擇的研究設(shè)計(jì)指的是網(wǎng)絡(luò)中行動(dòng)者和關(guān)系的缺失依賴(lài)于研究設(shè)計(jì)中提名選擇的限定(Holland & Leinhard, 1973),即網(wǎng)絡(luò)數(shù)據(jù)的偏差是由于研究設(shè)計(jì)造成的。假設(shè)圖2中的行動(dòng)者A屬于Z團(tuán)體,在這個(gè)團(tuán)體中,他和其他5個(gè)行動(dòng)者有關(guān)系,現(xiàn)研究者要求行動(dòng)者A提名y個(gè)和他關(guān)系最好的行動(dòng)者。如果y≤5,則行動(dòng)者A和其他5個(gè)行動(dòng)者之間的所有關(guān)系都包含在數(shù)據(jù)集中;如果y>5,則行動(dòng)者會(huì)失去5-y個(gè)關(guān)系。例如,學(xué)者想研究班級(jí)的學(xué)業(yè)咨詢(xún)網(wǎng)絡(luò)對(duì)學(xué)生學(xué)業(yè)拖延的影響,要求學(xué)生提名2個(gè)在學(xué)習(xí)上遇到困難或疑問(wèn)時(shí)會(huì)請(qǐng)教的同學(xué)。如果學(xué)生平時(shí)向同學(xué)請(qǐng)教問(wèn)題的人數(shù)普遍都是3個(gè),那么學(xué)者得到的學(xué)業(yè)咨詢(xún)網(wǎng)絡(luò)數(shù)據(jù)是有偏差的。因?yàn)樵谠摼W(wǎng)絡(luò)中,大部分行動(dòng)者(學(xué)生)都失去了1個(gè)關(guān)系。
在固定選擇的研究設(shè)計(jì)中,會(huì)出現(xiàn)互惠提名(有關(guān)系的雙方相互提名),非互惠提名(有關(guān)系的雙方只有一方提名)和無(wú)提名(有關(guān)系的雙方均不提名)三種情況。從本質(zhì)上而言,非互惠提名和其他兩種提名的情況不一樣(例如:好朋友和普通朋友的區(qū)別),因此,研究者需要考慮是否將其納入到研究范圍內(nèi)。固定選擇的研究設(shè)計(jì)還容易使數(shù)據(jù)呈現(xiàn)非隨機(jī)缺失的模式,如受歡迎的個(gè)體更有可能被其他行動(dòng)者提名(Feld, 1991)。但是,在不同結(jié)構(gòu)的網(wǎng)絡(luò)中,這種影響會(huì)不一致(Newman, 2002; Vázquez & Moreno, 2003)。例如,在非相稱(chēng)混合性(即受歡迎的行動(dòng)者傾向于和不受歡迎的行動(dòng)者相聯(lián)系)的網(wǎng)絡(luò)中,互惠提名將會(huì)導(dǎo)致更多關(guān)系缺失的情況出現(xiàn)。
23網(wǎng)絡(luò)調(diào)查中的無(wú)應(yīng)答
網(wǎng)絡(luò)調(diào)查中的無(wú)應(yīng)答包括應(yīng)答者完全缺失和特定項(xiàng)目的數(shù)據(jù)缺失(Stork & Richands, 1992; Rumsey, 1993)。應(yīng)答者完全缺失指的是行動(dòng)者沒(méi)有參與到調(diào)查研究中,因此行動(dòng)者的發(fā)出關(guān)系對(duì)于分析而言是無(wú)效的(如圖3所示,N表示缺失數(shù)據(jù))。特殊項(xiàng)目的數(shù)據(jù)缺失指的是行動(dòng)者參與了調(diào)查研究,但是在特定項(xiàng)目上的數(shù)據(jù)缺失,因此只有行動(dòng)者的部分關(guān)系對(duì)于分析而言是無(wú)效的(如圖4所示,N表示缺失數(shù)據(jù))。例如,在一個(gè)關(guān)于學(xué)生情感咨詢(xún)網(wǎng)絡(luò)對(duì)學(xué)業(yè)成績(jī)影響的調(diào)查中,要求學(xué)生提名3個(gè)班上的好朋友。圖3中的A和D兩位學(xué)生因事由請(qǐng)假?zèng)]有參與此次研究,但圖3應(yīng)答者完全缺失是其余的學(xué)生在提名中提及到了A和D,所以A和D的無(wú)應(yīng)答屬于應(yīng)答者完全缺失。如果A和D參與了調(diào)查研究(如圖4),但是在提名中他們忽略了被提及的學(xué)生,即B提名了A,A沒(méi)有提名B,則A和D的無(wú)應(yīng)答屬于特殊項(xiàng)目的數(shù)據(jù)缺失。對(duì)于1-模網(wǎng)絡(luò)而言,即由一個(gè)行動(dòng)者集合內(nèi)部各個(gè)行動(dòng)者之間的關(guān)系構(gòu)成的網(wǎng)絡(luò)(劉軍, 2009),無(wú)應(yīng)答對(duì)網(wǎng)絡(luò)結(jié)構(gòu)及統(tǒng)計(jì)指標(biāo)的影響不大,但是對(duì)于存在多元交互作用情景的網(wǎng)絡(luò)(例如,二元網(wǎng)絡(luò))而言,無(wú)應(yīng)答可能會(huì)造成特定的影響(Robins, Pattison, & Woolcock, 2004)。例如,在一個(gè)隸屬網(wǎng)絡(luò)的調(diào)查研究中,假設(shè)研究者沒(méi)有其他途徑可以了解團(tuán)隊(duì)的任何信息,只能要求行動(dòng)者報(bào)告他們隸屬于哪個(gè)團(tuán)隊(duì)。如果任何一個(gè)行動(dòng)者出現(xiàn)無(wú)應(yīng)答的情況,那么可能會(huì)出現(xiàn)這個(gè)無(wú)應(yīng)答行動(dòng)者所隸屬的團(tuán)隊(duì)缺失的情況。Huisman(2009)通過(guò)模擬研究發(fā)現(xiàn),忽視網(wǎng)絡(luò)調(diào)查中的無(wú)應(yīng)答數(shù)據(jù)對(duì)社會(huì)網(wǎng)絡(luò)的描述分析會(huì)造成消極的影響。進(jìn)一步比較分析行動(dòng)者無(wú)應(yīng)答和特殊項(xiàng)目無(wú)應(yīng)答的結(jié)果發(fā)現(xiàn),特殊項(xiàng)目的無(wú)應(yīng)答可能會(huì)造成更大的統(tǒng)計(jì)偏差。
網(wǎng)絡(luò)調(diào)查中的無(wú)應(yīng)答易導(dǎo)致行動(dòng)者或者關(guān)系的缺失,但是網(wǎng)絡(luò)環(huán)境中除無(wú)應(yīng)答行動(dòng)者以外的不完整觀察行動(dòng)者的部分信息仍然是有用的,如可利用這個(gè)信息來(lái)估計(jì)缺失狀態(tài)的效果和分析不完整網(wǎng)絡(luò)(Costenbader & Valente, 2003; Robins, Pattison, & Woolcock, 2004; Gile & Handcock, 2006; Handcock & Gile, 2007)。此外,不完整觀察行動(dòng)者的部分信息還可用來(lái)估計(jì)行動(dòng)者和網(wǎng)絡(luò)的結(jié)構(gòu)性能,并能給缺失數(shù)據(jù)機(jī)制提供參考。
和前兩種缺失數(shù)據(jù)原因相比,無(wú)應(yīng)答是社會(huì)網(wǎng)絡(luò)調(diào)查中最經(jīng)常出現(xiàn)的缺失情況。因此,有不少學(xué)者開(kāi)始關(guān)注社會(huì)網(wǎng)絡(luò)調(diào)查中無(wú)應(yīng)答的缺失問(wèn)題(Daniel, 1975; Stork & Richards, 1992; Butts, 2003; Kossinets, 2006; Huisman & Steglich, 2008; nidaricˇ, Ferligoj, & Doreian, 2012)。
3缺失機(jī)制
不同的缺失數(shù)據(jù)來(lái)源,還涉及一個(gè)重要的問(wèn)題,數(shù)據(jù)是否系統(tǒng)缺失。如果數(shù)據(jù)是系統(tǒng)缺失,那么缺失概率是否和觀察變量(性質(zhì)或?qū)傩裕┯嘘P(guān)。已有研究表明,在社會(huì)網(wǎng)絡(luò)中處理不同來(lái)源的缺失數(shù)據(jù)時(shí),應(yīng)考慮缺失機(jī)制以提高處理方法的有效性(Huisman, 2009; nidaricˇ, Ferligoj, & Doreian, 2012)。
缺失機(jī)制指的是數(shù)據(jù)的缺失概率和研究變量之間的關(guān)系(Schafer & Graham, 2002)。Rubin在1976年根據(jù)缺失引起的偏差程度定義了三種類(lèi)型的缺失數(shù)據(jù):完全隨機(jī)缺失(Missing Complete At Random, MCAR),隨機(jī)缺失(Missing At Random, MAR)和非隨機(jī)缺失(Missing Not At Random, MNAR)。假設(shè)所有變量觀測(cè)值Y中,完整的變量記為Yobs,缺失的變量記為Ymis。如果缺失概率和Yobs及Ymis相互獨(dú)立無(wú)關(guān),此類(lèi)缺失稱(chēng)為MCAR。如果缺失概率和Yobs相關(guān),和Ymis獨(dú)立無(wú)關(guān),則為MAR。MNAR是指缺失概率依賴(lài)于Yobs和Ymis。因?yàn)閅mis的未知性,研究者常常難以判斷缺失數(shù)據(jù)屬于哪種類(lèi)型的缺失機(jī)制。葉素靜,唐文清,張敏強(qiáng)和曹魏聰(2014)在對(duì)追蹤研究中缺失數(shù)據(jù)處理方法及應(yīng)用現(xiàn)狀的分析中綜述了三種類(lèi)型缺失機(jī)制的粗略判斷方法。
對(duì)于社會(huì)網(wǎng)絡(luò)數(shù)據(jù)而言,完全隨機(jī)缺失是指缺失概率和缺失關(guān)系的數(shù)值及觀察數(shù)據(jù)(例如,行動(dòng)者的屬性)無(wú)關(guān)。在這種情況下,觀察數(shù)據(jù)是原始觀察值的一個(gè)隨機(jī)樣本,因此不存在系統(tǒng)偏差。隨機(jī)缺失是指缺失概率和觀察數(shù)據(jù)有關(guān),但是和缺失關(guān)系的數(shù)值無(wú)關(guān)。盡管在這種情況下缺失數(shù)據(jù)會(huì)呈現(xiàn)出系統(tǒng)模式,但是這些模式是可控的,因?yàn)樗鼈兒蜆颖局械挠^察數(shù)據(jù)有關(guān)。非隨機(jī)缺失是指缺失概率不僅和觀察數(shù)據(jù)有關(guān),還和缺失關(guān)系的數(shù)值有關(guān),這種類(lèi)型的缺失數(shù)據(jù)會(huì)對(duì)統(tǒng)計(jì)分析的偏差程度造成很大的影響。因?yàn)樵诜请S機(jī)缺失的情況下,應(yīng)答者和無(wú)應(yīng)答者之間的差異是由系統(tǒng)誤差造成的,關(guān)于網(wǎng)絡(luò)結(jié)構(gòu)性質(zhì)的統(tǒng)計(jì)指標(biāo)將會(huì)受到影響(Costenbader & Valente, 2003)。
4缺失數(shù)據(jù)處理方法
41完整個(gè)案法
完整個(gè)案法,即刪除部分已有的數(shù)據(jù)以保證所研究對(duì)象信息的完整性。完整個(gè)案法相當(dāng)于行動(dòng)者的列刪除法,它不僅移除不完整觀察行動(dòng)者的列數(shù)據(jù)且一并移除該行動(dòng)者的行數(shù)據(jù),而移除行意味著在分析中移除不完整觀察行動(dòng)者和完整觀察行動(dòng)者之間的所有關(guān)系(Huisman & Steglich, 2008)。因此,使用完整個(gè)案法后用于分析的數(shù)據(jù)集是完整的,即每一個(gè)行動(dòng)者既有接收的關(guān)系也有發(fā)出的關(guān)系。例如,圖5(a)是一個(gè)班級(jí)情感關(guān)系網(wǎng)絡(luò)的例子,其中有A、D、F三個(gè)無(wú)應(yīng)答行動(dòng)者,每一個(gè)無(wú)應(yīng)答者都沒(méi)有指向外部的情感關(guān)系,在觀察網(wǎng)絡(luò)的矩陣表達(dá)式中就會(huì)有幾行缺失關(guān)系數(shù)據(jù)N,對(duì)數(shù)據(jù)進(jìn)行完整個(gè)案法處理后,結(jié)果就會(huì)出現(xiàn)如圖5(b)呈現(xiàn)的小網(wǎng)絡(luò)。因此,完整個(gè)案法是在可完全觀察行動(dòng)者的小網(wǎng)絡(luò)基礎(chǔ)上進(jìn)行分析處理的。nidaricˇ, Ferligoj和Doreian(2012)用完整個(gè)案法等多種缺失數(shù)據(jù)處理方法對(duì)社會(huì)網(wǎng)絡(luò)區(qū)組模型中的無(wú)應(yīng)答情況進(jìn)行分析,結(jié)果發(fā)現(xiàn),在小規(guī)模網(wǎng)絡(luò)中,完整個(gè)案法對(duì)區(qū)組模型結(jié)構(gòu)的穩(wěn)定性影響最小。Robins, Pattison和Woolcock(2004)的研究結(jié)果則表明,完整個(gè)案法重新定義了網(wǎng)絡(luò)邊界:移除無(wú)應(yīng)答行動(dòng)者之后相當(dāng)于生成了一個(gè)更小的網(wǎng)絡(luò)。
完整個(gè)案法是一種加權(quán)方法,它丟棄了不完整個(gè)案的數(shù)據(jù),對(duì)完整個(gè)案和缺失個(gè)案賦予了同樣的權(quán)重。在分析的統(tǒng)計(jì)軟件包里,完整個(gè)案法通常是默認(rèn)處理缺失數(shù)據(jù)的方法。它最大的一個(gè)優(yōu)點(diǎn)就是簡(jiǎn)便,缺點(diǎn)則是因?yàn)楹鲆暡煌暾麄€(gè)案而丟失了大部分信息,很可能出現(xiàn)模型和數(shù)據(jù)無(wú)法擬合的情況。因此,只能在缺失概率較小的網(wǎng)絡(luò)中使用完整個(gè)案法。Schafer和Graham(2002)認(rèn)為,當(dāng)無(wú)應(yīng)答者是完全隨機(jī)缺失時(shí),完整個(gè)案法可能是有效的。然而,如果這個(gè)前提假設(shè)不成立,統(tǒng)計(jì)分析結(jié)果就會(huì)有偏差,因?yàn)槭S嗟男袆?dòng)者樣本可能是不具有代表性的。也有學(xué)者認(rèn)為,完全個(gè)案法從系統(tǒng)水平而言,嚴(yán)重?fù)p害了所有分析(Stork & Richards, 1992),且可能會(huì)暗中破壞社會(huì)網(wǎng)絡(luò)模型的假設(shè)(Snijders, Bunt, & Steglich, 2010)。
42有效個(gè)案法
有效個(gè)案法是指忽略缺失的數(shù)據(jù),只使用觀測(cè)到的關(guān)系變量。有效個(gè)案法是直接對(duì)不完整數(shù)據(jù)進(jìn)行分析,即根據(jù)SNA需要計(jì)算的統(tǒng)計(jì)值選擇行動(dòng)者的有效數(shù)據(jù)。例如,在一元統(tǒng)計(jì)分析中,在計(jì)算網(wǎng)絡(luò)的平均數(shù)和標(biāo)準(zhǔn)差時(shí),可以選擇所有變量都完整觀察的個(gè)體行動(dòng)者的有效數(shù)據(jù),而在計(jì)算網(wǎng)絡(luò)的協(xié)方差或者相關(guān)系數(shù)時(shí),則需要選擇所有變量都完整觀察的配對(duì)行動(dòng)者的有效數(shù)據(jù)。
Littile和Rubin(1989)在探討社會(huì)科學(xué)領(lǐng)域關(guān)于缺失數(shù)據(jù)處理的分析方法時(shí),比較了完整個(gè)案法和有效個(gè)案法對(duì)網(wǎng)絡(luò)的均值、方差、協(xié)方差及相關(guān)系數(shù)四個(gè)統(tǒng)計(jì)量的參數(shù)估計(jì)影響及二者的差異。研究結(jié)果表明,和完整個(gè)案法相比,使用有效個(gè)案法后,網(wǎng)絡(luò)的均值參數(shù)估計(jì)值是無(wú)偏的。但是,其余三個(gè)統(tǒng)計(jì)量的參數(shù)估計(jì)值的偏差較大。隨后,Little和Su(1989)進(jìn)一步對(duì)兩種方法的差異進(jìn)行了詳細(xì)的討論,也得出了相同的結(jié)果。
有效個(gè)案法簡(jiǎn)單易行,和完整個(gè)案法相比,它的參數(shù)估計(jì)值較為精準(zhǔn)。但是有效個(gè)案法具有較低的統(tǒng)計(jì)功效,且和沒(méi)有缺失數(shù)據(jù)的網(wǎng)絡(luò)參數(shù)估計(jì)值相比,存在很大的偏差。因此,研究者較少使用有效個(gè)案法對(duì)社會(huì)網(wǎng)絡(luò)中的缺失數(shù)據(jù)進(jìn)行處理。
43重建法
重建法指的是通過(guò)互惠關(guān)系來(lái)推斷缺失連接的存在與否。重建法和插補(bǔ)法不一樣,重建法在分析的過(guò)程中沒(méi)有增加新的關(guān)系,它只是通過(guò)觀察到的應(yīng)答者的入度關(guān)系(即行動(dòng)者接收的關(guān)系)來(lái)重建網(wǎng)絡(luò)中無(wú)應(yīng)答者的出度關(guān)系(即行動(dòng)者發(fā)出的關(guān)系)。從本質(zhì)上而言,即用已經(jīng)報(bào)告的一個(gè)關(guān)系進(jìn)行測(cè)量,且重建法僅允許兩個(gè)人之間的關(guān)系。重建之后的網(wǎng)絡(luò)中應(yīng)答者和無(wú)應(yīng)答者之間的關(guān)系是對(duì)稱(chēng)的。使用重建法對(duì)SNA中的缺失數(shù)據(jù)進(jìn)行處理時(shí),必須滿(mǎn)足兩個(gè)原則: (1)相似性,即應(yīng)答行動(dòng)者與無(wú)應(yīng)答行動(dòng)者之間的作答模式應(yīng)具有相似性。因?yàn)橹亟ǚㄊ峭ㄟ^(guò)應(yīng)答行動(dòng)者所描述的關(guān)系去構(gòu)建無(wú)應(yīng)答行動(dòng)者的關(guān)系,所以?xún)蓚€(gè)行動(dòng)者之間的應(yīng)答模式不能存在系統(tǒng)的偏差;(2)可靠性,即應(yīng)答行動(dòng)者所描述的和無(wú)應(yīng)答行動(dòng)者之間的關(guān)系要確認(rèn)是有效、可靠的(Stork & Richards, 1992)。自重建法提出以來(lái),不少學(xué)者將其作為社會(huì)網(wǎng)絡(luò)缺失數(shù)據(jù)常用的處理方法。Gabbay和Zuckerman(1998)在有向網(wǎng)絡(luò)中,通過(guò)應(yīng)答行動(dòng)者報(bào)告的和無(wú)應(yīng)答行動(dòng)者之間的關(guān)系重建了網(wǎng)絡(luò)中行動(dòng)者之間的關(guān)系。Huisman和Steglich(2008)則用重建法研究了網(wǎng)絡(luò)面板數(shù)據(jù)中的無(wú)應(yīng)答缺失數(shù)據(jù)情況,結(jié)果表明重建法在構(gòu)建完整的網(wǎng)絡(luò)數(shù)據(jù)時(shí)幾乎不會(huì)出現(xiàn)不收斂的問(wèn)題。
一般而言,針對(duì)不同類(lèi)型的網(wǎng)絡(luò),重建法的程序如下所示:
(1)在無(wú)向網(wǎng)絡(luò)中,通過(guò)觀察到的應(yīng)答者之間的關(guān)系以及部分應(yīng)答者和無(wú)應(yīng)答者之間的關(guān)系對(duì)網(wǎng)絡(luò)進(jìn)行重構(gòu)(Stork & Richards, 1992)。
(2)在有向網(wǎng)絡(luò)中,通過(guò)對(duì)立關(guān)系來(lái)推斷缺失關(guān)系。例如,對(duì)于應(yīng)答行動(dòng)者i和無(wú)應(yīng)答行動(dòng)者j,重建法假設(shè)行動(dòng)者i描述的和行動(dòng)者j之間的所有關(guān)系和行動(dòng)者j所描述的關(guān)系是完全一致的,即研究者可以通過(guò)應(yīng)答行動(dòng)者i來(lái)插補(bǔ)對(duì)立關(guān)系的觀察值,即ximpij=xji(Huisman, 2009)。
重建法最大的優(yōu)點(diǎn)就是允許研究者最大化地利用有效信息去構(gòu)建社會(huì)網(wǎng)絡(luò)。有研究表明,當(dāng)社會(huì)網(wǎng)絡(luò)中存在缺失數(shù)據(jù)時(shí),僅有437%的關(guān)系能夠被解釋?zhuān)褂弥亟ǚê?,則能夠解釋缺失數(shù)據(jù)網(wǎng)絡(luò)中897%的關(guān)系數(shù)據(jù)(Neal, 2008)。但是,重建法無(wú)法構(gòu)建兩個(gè)無(wú)應(yīng)答行動(dòng)者之間的關(guān)系。如果兩個(gè)無(wú)應(yīng)答行動(dòng)者之間存在重要關(guān)系,研究者就無(wú)法使用重建法去正確地定義網(wǎng)絡(luò)的結(jié)構(gòu)。因此,需要用其它的插補(bǔ)方法來(lái)重建整個(gè)網(wǎng)絡(luò)。例如,對(duì)于無(wú)應(yīng)答行動(dòng)者之間的所有關(guān)系,隨機(jī)插補(bǔ)一個(gè)和觀察密度成比例的關(guān)系,使重建網(wǎng)絡(luò)中缺失關(guān)系的比例等于網(wǎng)絡(luò)的觀察密度。
44基于指數(shù)隨機(jī)圖模型的多重插補(bǔ)法
指數(shù)隨機(jī)圖模型(Exponential Random Graph Model, ERGM)又稱(chēng)為p
瘙 毐 模型,是用來(lái)描述x分布情況的概率質(zhì)量函數(shù),其表達(dá)式為:
其中,q是網(wǎng)絡(luò)的實(shí)值函數(shù),常以θTz(x)的形式出現(xiàn),z是網(wǎng)絡(luò)的向量值函數(shù),其取值為網(wǎng)絡(luò)統(tǒng)計(jì)值。這些統(tǒng)計(jì)值也被稱(chēng)為結(jié)構(gòu)統(tǒng)計(jì)值,用來(lái)描述網(wǎng)絡(luò)中的結(jié)構(gòu),如連接、三方關(guān)系等的數(shù)量。θ是一個(gè)維度為p×1的向量參數(shù)(θ∈Θ),ψ(θ)是一個(gè)常數(shù),用于將函數(shù)值標(biāo)準(zhǔn)化(Koskinen, Robins, Wang, & Pattison, 2013)。
ERGM的原理是在綜合了實(shí)測(cè)網(wǎng)絡(luò)中的多種局部結(jié)構(gòu)特征情況下來(lái)計(jì)算這些網(wǎng)絡(luò)出現(xiàn)的可能性。具體過(guò)程為,首先使用馬爾科夫鏈蒙特卡洛最大似然估計(jì)法(Markov Chain Mont Carlo Maximum Likelihood Estimation, MCMCMLE)模擬出一個(gè)隨機(jī)網(wǎng)絡(luò),然后將這個(gè)隨機(jī)網(wǎng)絡(luò)的參數(shù)與實(shí)測(cè)網(wǎng)絡(luò)的參數(shù)進(jìn)行對(duì)比,最后通過(guò)對(duì)比指標(biāo)判斷是否采納結(jié)果。Robins(2009)用ERGM方法對(duì)有向社會(huì)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行分析時(shí)指出,如果模擬的隨機(jī)網(wǎng)絡(luò)不能很好地代表實(shí)測(cè)網(wǎng)絡(luò),那么參數(shù)將被調(diào)整并運(yùn)用到下一次模擬中,且這樣的循環(huán)可能至少要進(jìn)行8000次,直到模擬網(wǎng)絡(luò)能夠很好地代表實(shí)測(cè)網(wǎng)絡(luò)為止。
基于ERGM的多重插補(bǔ)法,指的是通過(guò)ERGM產(chǎn)生的多個(gè)插補(bǔ)值的向量代替每一個(gè)缺失數(shù)據(jù)的過(guò)程。例如,當(dāng)網(wǎng)絡(luò)數(shù)據(jù)中存在無(wú)應(yīng)答的缺失數(shù)據(jù)時(shí),基于ERGM的多重插補(bǔ)法則會(huì)將應(yīng)答行動(dòng)者和無(wú)應(yīng)答行動(dòng)者看作是兩種不同類(lèi)型的節(jié)點(diǎn),然后區(qū)分應(yīng)答者之間的關(guān)系以及應(yīng)答者和無(wú)應(yīng)答者之間的關(guān)系。最后,根據(jù)研究者的調(diào)查目的,對(duì)缺失數(shù)據(jù)進(jìn)行相應(yīng)的處理。如果無(wú)應(yīng)答者是隨機(jī)缺失,則在網(wǎng)絡(luò)特定結(jié)構(gòu)間同質(zhì)性的前提下利用ERGM對(duì)缺失數(shù)據(jù)進(jìn)行多重插補(bǔ)。如果無(wú)應(yīng)答者是非隨機(jī)缺失,且研究重點(diǎn)關(guān)注應(yīng)答者的網(wǎng)絡(luò)結(jié)構(gòu),則可以將包含無(wú)應(yīng)答者相關(guān)關(guān)系的信息看作是外源變量,并使用標(biāo)準(zhǔn)的馬爾科夫圖模型進(jìn)行分析(Koskinen, Robins, Wang, & Pattison, 2013)。
基于ERGM的多重插補(bǔ)法最大的優(yōu)點(diǎn)是,不僅能有效地辨別應(yīng)答者和無(wú)應(yīng)答者之間的差異是由系統(tǒng)誤差還是隨機(jī)誤差造成的,還可以在缺失數(shù)據(jù)是隨機(jī)缺失的情況下,最大化地利用觀察到的數(shù)據(jù)信息?;贓RGM的多重插補(bǔ)法從本質(zhì)上而言是通過(guò)網(wǎng)絡(luò)的局部結(jié)構(gòu)去推斷整體結(jié)構(gòu)。因此,即使數(shù)據(jù)有較大的缺失概率,只要網(wǎng)絡(luò)有足夠數(shù)量的局部網(wǎng)絡(luò)子結(jié)構(gòu),就能夠通過(guò)觀察到的數(shù)據(jù)進(jìn)行有理的推斷。Koskinen,Robins和Pattison(2010)用基于ERGM的多重插補(bǔ)法對(duì)一個(gè)合作關(guān)系社會(huì)網(wǎng)絡(luò)中的缺失數(shù)據(jù)進(jìn)行處理,實(shí)證及模擬研究結(jié)果表明,這種基于模型的多重插補(bǔ)法能夠正確地解釋網(wǎng)絡(luò)中80%的關(guān)系數(shù)據(jù)及允許有三分之一數(shù)據(jù)缺失的情況。但是,這種方法最大的缺點(diǎn)是運(yùn)算過(guò)程較復(fù)雜,耗時(shí)較長(zhǎng)。
5問(wèn)題與展望
缺失數(shù)據(jù)對(duì)社會(huì)網(wǎng)絡(luò)數(shù)據(jù)分析造成的消極影響主要體現(xiàn)在以下兩個(gè)方面:(1)減少的樣本量大小、行動(dòng)者及關(guān)系的信息易導(dǎo)致模型和數(shù)據(jù)出現(xiàn)不擬合的情況;(2)缺失數(shù)據(jù)容易造成參數(shù)估計(jì)的偏差。例如,Kossinet(2006)和Huisman(2009)的研究發(fā)現(xiàn),缺失數(shù)據(jù)會(huì)使社會(huì)網(wǎng)絡(luò)數(shù)據(jù)分析的結(jié)果產(chǎn)生偏差,因?yàn)槿笔?shù)據(jù)不僅對(duì)網(wǎng)絡(luò)結(jié)構(gòu)描述產(chǎn)生消極影響,還會(huì)低估行動(dòng)者之間的關(guān)系強(qiáng)弱和網(wǎng)絡(luò)的聚類(lèi)系數(shù),容易造成中心性和度數(shù)測(cè)量不穩(wěn)定的情況。因此,缺失數(shù)據(jù)是SNA廣泛應(yīng)用面臨的嚴(yán)峻問(wèn)題。
從表1的四種缺失處理方法的適用條件比較中可看到,缺失數(shù)據(jù)處理方法的選擇和缺失概率、缺失機(jī)制存在較大的關(guān)聯(lián)。進(jìn)一步比較四種方法的優(yōu)缺點(diǎn)可以發(fā)現(xiàn),當(dāng)缺失數(shù)據(jù)是完全隨機(jī)缺失時(shí),四種方法的參數(shù)估計(jì)是無(wú)偏的。當(dāng)缺失數(shù)據(jù)是非隨機(jī)缺失時(shí),完整個(gè)案法和有效個(gè)案法雖簡(jiǎn)單易行,但容易導(dǎo)致信息的大量流失及具有較低的統(tǒng)計(jì)功效和較大的參數(shù)估計(jì)偏差。其中,和完整個(gè)案法相比,有效個(gè)案法在參數(shù)分布估計(jì)方面的偏差要略小,因?yàn)橛行€(gè)案法分析的是全體有效樣本的數(shù)據(jù)。但在其它參數(shù)估計(jì)方面,兩種方法都出現(xiàn)了較大的偏差(Little & Rubin, 1989)。重建法和基于ERGM的多重插補(bǔ)法在非隨機(jī)缺失的情況下,可以忽略缺失機(jī)制的影響而直接在缺失概率較?。?0~30%)的網(wǎng)絡(luò)中應(yīng)用,兩種方法在參數(shù)估計(jì)方面沒(méi)有表現(xiàn)出太大的偏差,但是如果網(wǎng)絡(luò)中的缺失概率較大時(shí),兩種方法會(huì)受到缺失機(jī)制的影響。
當(dāng)數(shù)據(jù)是隨機(jī)缺失時(shí),重建法具有較好的統(tǒng)計(jì)功效,對(duì)社會(huì)網(wǎng)絡(luò)進(jìn)行描述性分析時(shí),如計(jì)算網(wǎng)絡(luò)的平均度數(shù)、互惠性和傳遞性等網(wǎng)絡(luò)統(tǒng)計(jì)特征值,即使缺失概率達(dá)到50%,重建法仍然能夠表現(xiàn)良好(Huisman, 2009)。但重建法只能用于特定網(wǎng)絡(luò)的數(shù)據(jù)缺失處理,且在某些情況下會(huì)高估連接的數(shù)量。雖然,在社會(huì)網(wǎng)絡(luò)中的數(shù)據(jù)缺失概率不大時(shí),重建法和基于ERGM的多重插補(bǔ)法均沒(méi)有太大的差異,但是后者能夠利用插補(bǔ)值間的差異來(lái)衡量估計(jì)結(jié)果中不確定性的大量信息。和重建法一樣,當(dāng)社會(huì)網(wǎng)絡(luò)中的缺失數(shù)據(jù)樣本量在中等范圍以下時(shí),基于ERGM的多重插補(bǔ)法具有較小的參數(shù)估計(jì)偏差且不會(huì)低估標(biāo)準(zhǔn)誤,但這種方法唯一的缺點(diǎn)就是運(yùn)算過(guò)程復(fù)雜,需要做大量的工作來(lái)構(gòu)建插補(bǔ)集以便于進(jìn)行結(jié)果分析,且當(dāng)缺失數(shù)據(jù)樣本量大時(shí),模擬網(wǎng)絡(luò)和實(shí)測(cè)網(wǎng)絡(luò)可能會(huì)出現(xiàn)不擬合的情況。