孟顥光 游秀峰 李為爭(zhēng)
摘要對(duì)應(yīng)分析圖可揭示多個(gè)多類(lèi)別變量的關(guān)系,包括同一變量不同類(lèi)別的相似性、不同變量類(lèi)別的關(guān)聯(lián)性和類(lèi)別關(guān)聯(lián)性排序等。然而,網(wǎng)上大量轉(zhuǎn)載的對(duì)應(yīng)分析圖解讀方法是錯(cuò)誤的。作者分析了前翅主色和特征色不同組合出現(xiàn)的蛾類(lèi)物種數(shù),揭示了“四象限”“相鄰點(diǎn)”“共垂線(xiàn)”“角余弦”和“同心圓”解讀結(jié)果的矛盾,結(jié)合對(duì)應(yīng)分析算法步驟給出了正確解讀方法,即只有“共垂線(xiàn)”法和“角余弦”法才是正確的。
關(guān)鍵詞 對(duì)應(yīng)分析 解讀 變量 類(lèi)別
中圖分類(lèi)號(hào):O212.1文獻(xiàn)標(biāo)識(shí)碼:ADOI:10.16400/j.cnki.kjdk.2021.27.020
Analysis of Interpretation Methods of Correspondence Analysis Diagram
MENG Haoguang, YOU Xiufeng, LI Weizheng
(College of Plant Protection, Henan Agricultural University, Zhengzhou, Hunan 450002)
AbstractThecorrespondence analysis chart can reveal the relationship ofmultiplemulticategory variables,including the similarityofdifferentcategoriesofthesamevariable,therelevanceofdifferentvariablecategoriesandtherankingofcategory relevance.However,theinterpretationmethodofcorrespondenceanalysischartreprintedontheInternetiswrong.Theauthor analyzes the number of moth species in different combinations of front wing main color and characteristic color, reveals the contradiction between the interpretation results of "four quadrants", "adjacent points", "common vertical line", "angular cosine" and "concentric circle", and gives the correct interpretation method combined with the corresponding analysis algorithm steps, that is, only the "common vertical line" method and "angular cosine" method are correct.
Keywordscorrespondence analysis; interprets; variable; categories
對(duì)應(yīng)分析(Correspondence analysis)是Jean-PaulBen ecri等開(kāi)發(fā)的多元協(xié)變變量統(tǒng)計(jì)技術(shù),是主成分分析的拓廣。[1]其基本思想是在低維空間以散點(diǎn)的形式展示列聯(lián)表行變量和列變量中各類(lèi)別的結(jié)構(gòu),以定位圖展現(xiàn)同一變量中各類(lèi)別的相似性,及不同變量類(lèi)別點(diǎn)之間的伴隨性。[2-4]已廣泛用于古生物學(xué)、社會(huì)學(xué)、經(jīng)濟(jì)學(xué)、語(yǔ)言學(xué)、生態(tài)學(xué)、醫(yī)學(xué)和心理學(xué)等領(lǐng)域。[5]然而,網(wǎng)絡(luò)上被大量轉(zhuǎn)載的解讀方法是錯(cuò)誤的!這種錯(cuò)誤的知識(shí)不加甄別地轉(zhuǎn)載,勢(shì)必對(duì)統(tǒng)計(jì)教學(xué)帶來(lái)困擾,甚至某些統(tǒng)計(jì)教師也通過(guò)“百度一下”以其作為典型案例寫(xiě)入了課件。因此,本文辨析對(duì)應(yīng)分析圖的解讀方法。
1數(shù)據(jù)來(lái)源
昆蟲(chóng)綱是全球生物多樣性最豐富的類(lèi)群。其中,蛾蝶類(lèi)是仿生服裝設(shè)計(jì)的重要源泉,也是地理生態(tài)學(xué)和進(jìn)化的重要研究素材。本文關(guān)注蛾類(lèi)前翅主色和特征色的關(guān)系。首先登錄生命探索網(wǎng)(https://www.discoverlife.org/),沿下述路徑進(jìn)入檢索數(shù)據(jù)庫(kù):all living things(所有生物)—insects(昆蟲(chóng))—Lepidoptera(鱗翅目)—Lepidoptera(鱗翅目)—Butterflies;Moths;Skippers(蝶類(lèi)、蛾類(lèi)和弄蝶類(lèi))—Moth(蛾類(lèi))。進(jìn)入界面后可以看到月份、休息姿勢(shì)、前翅主色、前翅特征色、前翅圖案、前翅長(zhǎng)度、翅緣圖案、前翅形狀、后翅形狀、大小、科、屬共12個(gè)勾選項(xiàng)。以前翅主色和前翅特征色的每個(gè)勾選項(xiàng)相結(jié)合作為搜索條件,查看蛾類(lèi)物種數(shù),檢索結(jié)果如表1所示。
2對(duì)應(yīng)分析步驟及結(jié)果
步驟:(1)在Excel中把上述交叉表數(shù)據(jù)整理成3列,列標(biāo)題分別是前翅主色、前翅特征色和蛾類(lèi)物種數(shù),并對(duì)前翅主色和前翅特征色的類(lèi)別進(jìn)行連續(xù)性數(shù)值編碼;(2)在SPSS 19.0變量視圖中定義3個(gè)變量:前翅主色、前翅特征色和蛾類(lèi)物種數(shù)。前二者設(shè)置為名義型變量,蛾類(lèi)物種數(shù)設(shè)置為度量型變量;(3)返回?cái)?shù)據(jù)視圖,將整理的數(shù)據(jù)導(dǎo)入,并對(duì)蛾類(lèi)物種數(shù)加權(quán);(4)點(diǎn)擊分析—降維—對(duì)應(yīng)分析,將前翅主色作為行變量,前翅特征色作為列變量,分別定義其最大類(lèi)別數(shù)。點(diǎn)擊“更新”后確定,返回主對(duì)話(huà)框;(5)點(diǎn)擊“模型”,將解的維數(shù)限制為“2”,采用卡方距離度量。點(diǎn)擊確定,輸出結(jié)果如圖1。
3網(wǎng)上常見(jiàn)解讀方法
四象限:同一象限中不同變量的類(lèi)別有關(guān)聯(lián)性,不同象限中類(lèi)別沒(méi)有關(guān)聯(lián)性。圖1上方(象限1和象限2)是冷色調(diào),下方(象限3和象限4)是暖色調(diào)。解讀結(jié)論是,灰色前翅的蛾類(lèi)通常沒(méi)有特征色(象限1),黑、綠色前翅的蛾類(lèi)通常有藍(lán)色或綠色特征色(象限2),橙色前翅的蛾類(lèi)常具有紅、橙或黃色特征色(象限3)。第4象限就難以自圓其說(shuō)了,“無(wú)特征色”也是特征色類(lèi)別之一,不能認(rèn)為第4象限具有白色、棕色前翅的蛾類(lèi)“沒(méi)有特征色”。
相鄰點(diǎn):根據(jù)不同類(lèi)別點(diǎn)的距離判斷關(guān)聯(lián)性。如前翅主色“黑色”與前翅特征色“藍(lán)色”距離很近,關(guān)系密切??墒菑谋?看出,前翅主色為黑色且特征色為藍(lán)色的蛾類(lèi)只有683種,在行變量各類(lèi)別中排名倒數(shù)第二,在列變量的各類(lèi)別中其頻次也遠(yuǎn)遠(yuǎn)不如前翅主色為灰色、棕色的物種數(shù)。
共垂線(xiàn):從原點(diǎn)出發(fā)連接一個(gè)變量的任一類(lèi)別點(diǎn)構(gòu)成“正向矢量”,將另一變量各類(lèi)別分別做“正向矢量”的垂線(xiàn)。根據(jù)垂點(diǎn)位置(不是垂線(xiàn)長(zhǎng)度)獲得類(lèi)別相關(guān)性強(qiáng)弱順序。圖2說(shuō)明,前翅主色為綠色的蛾類(lèi),與不同特征色結(jié)合的順序是:綠色>藍(lán)色>紅色>黃色>橙色>無(wú)特征色。當(dāng)然,做出前翅特征色某類(lèi)別的正向矢量,以每個(gè)前翅主色的類(lèi)別點(diǎn)向這個(gè)正向矢量做垂線(xiàn),分析方法相同。
角余弦:做同一變量任意兩類(lèi)別的“正向矢量”,根據(jù)其夾角判斷兩類(lèi)別相似性,夾角越小兩個(gè)類(lèi)別越相似。如圖3,前翅主色為黑、綠色的蛾類(lèi),前翅特征色非常相似(兩條正向矢量接近重合);前翅特征色為黃、橙色的蛾類(lèi),前翅主色非常相似。
同心圓:以某變量任一類(lèi)別點(diǎn)為圓心做一組同心圓,觀(guān)察每個(gè)圓中另一變量的類(lèi)別,分析其伴隨性強(qiáng)弱。圖4中以黑色前翅為圓心,內(nèi)圓涵蓋的特征色是藍(lán)色,外圓還涵蓋了紅色、綠色特征色。
4不同解讀方法的矛盾
上述解讀結(jié)果明顯矛盾。例如,圖1“棕色前翅主色”在第4象限,“無(wú)特征色”在第1象限,按“四象限”解讀法二者不相關(guān);但按“同心圓”或“相鄰點(diǎn)”解讀法二者密切相關(guān)。按“共垂線(xiàn)”解讀法,黑色前翅主色與綠色的前翅特征色關(guān)系最密切,但按照“同心圓”或“相鄰點(diǎn)”的解讀方法,很顯然關(guān)系最密切的是“藍(lán)色前翅特征色”。矛盾的原因,源于錯(cuò)誤的解讀方法。
5對(duì)應(yīng)分析圖正確的解讀方法
對(duì)應(yīng)分析的基礎(chǔ)是主成分分析。其算法途徑是:首先根據(jù)交叉表數(shù)據(jù)計(jì)算卡方期望值和標(biāo)準(zhǔn)化單元格殘差,然后根據(jù)單元格殘差計(jì)算任意兩行之間和任意兩列之間Pearson相關(guān)系數(shù),構(gòu)建相關(guān)系數(shù)矩陣;第三步是針對(duì)兩個(gè)矩陣各做一次主成分分析,將原類(lèi)別凝練為2個(gè)上位概念的類(lèi)別(即主成分,一般解的維數(shù)限制為“2”);最后根據(jù)主成分因子載荷繪制2組散點(diǎn)圖,疊加在同一坐標(biāo)系中。
“共垂線(xiàn)”是最重要的解讀方法。所謂“正向矢量”,指的是從坐標(biāo)原點(diǎn)出發(fā)并連接某個(gè)類(lèi)別點(diǎn)的有向射線(xiàn)。注意:“正向矢量”的出發(fā)點(diǎn)是坐標(biāo)原點(diǎn)。反向延長(zhǎng)線(xiàn)一側(cè)的類(lèi)別散點(diǎn),不要再?lài)L試解讀與該類(lèi)別散點(diǎn)的任何聯(lián)系,因?yàn)樗鼈儧](méi)有相關(guān)性或相關(guān)性不顯著,也就無(wú)所謂排序問(wèn)題了。圖2正確解讀結(jié)果是,前翅主色為綠色的蛾類(lèi)具有的特征色順序是:綠色>藍(lán)色>紅色。
對(duì)應(yīng)分析圖是從“整體”出發(fā)繪制的。如果共垂線(xiàn)法得到的順序和實(shí)際頻次發(fā)生顛倒,是因?yàn)榻徊姹碇锌v向和橫向類(lèi)別的交互影響所致。如表1中前翅主色為黑色且具備藍(lán)色或綠色特征色的蛾類(lèi)分別有683種和589種,遠(yuǎn)不如這種主色和“無(wú)特征色”組成的物種數(shù)目(1965種)。但是如果我們觀(guān)察“無(wú)特征色”這一列時(shí),發(fā)現(xiàn)該顏色性狀和“棕色前翅”的組合形成的蛾類(lèi)物種數(shù)高達(dá)10445種,與“灰色前翅”的組合形成的物種數(shù)目為8015種。在對(duì)應(yīng)分析的過(guò)程中,“無(wú)特征色”這種性狀被“棕色前翅”和“灰色前翅”分走了太多的載荷,因此在單獨(dú)抽取“黑色前翅主色”的類(lèi)別點(diǎn)關(guān)系時(shí),“無(wú)特征色”的優(yōu)先性順序便不如“藍(lán)色前翅主色”和“綠色前翅主色”,因?yàn)檫@是蛾類(lèi)中普遍存在的性狀。
“角余弦”是另一種重要解讀方法,但不僅局限于分析相同變量不同類(lèi)別點(diǎn)之間的相似性,也用于分析不同變量?jī)蓚€(gè)類(lèi)別點(diǎn)之間的伴隨性。例如,圖3中的“綠色前翅主色”和“綠色前翅特征色”,“棕色前翅主色”和“無(wú)特征色”,這兩組類(lèi)別點(diǎn)的關(guān)系是非常密切的,不能認(rèn)為“棕色前翅主色”和“無(wú)特征色”的散點(diǎn)出現(xiàn)在不同象限就認(rèn)為它們不相關(guān)。
“相鄰點(diǎn)”和“同心圓”解讀法都是通過(guò)分析各類(lèi)別散點(diǎn)的絕對(duì)距離實(shí)現(xiàn)的,結(jié)果完全等價(jià)。遺憾的是,散點(diǎn)之間的距離不是交叉頻次表原始數(shù)據(jù)的簡(jiǎn)單翻版,而是通過(guò)上述標(biāo)準(zhǔn)化單元格殘差計(jì)算、相關(guān)分析、主成分分析等許多中間步驟實(shí)現(xiàn)的。對(duì)應(yīng)分析的開(kāi)發(fā)者和SPSS軟件的開(kāi)發(fā)商,從未提及“四象限”的解讀方法(盡管在某些案例中這種分析比較有趣,但僅限于從主成分分析的角度看待,不能解釋類(lèi)別點(diǎn)之間關(guān)系的強(qiáng)弱)。
6結(jié)語(yǔ)
對(duì)應(yīng)分析圖的用途包括:(1)分析不同類(lèi)別點(diǎn)的“特征性”。如果兩個(gè)類(lèi)別點(diǎn)分別來(lái)自?xún)蓚€(gè)不同變量,且二者正向矢量夾角呈銳角,那么二者離坐標(biāo)原點(diǎn)越遠(yuǎn),伴隨出現(xiàn)的頻次越高;(2)分析同一變量不同類(lèi)別點(diǎn)的相似性;(3)分析不同變量的類(lèi)別點(diǎn)之間的伴隨性。正確解讀方法只有共垂線(xiàn)法和角余弦兩種方法。
*通訊作者:李為爭(zhēng)
參考文獻(xiàn)
[1]Beh EJ, Lombardo R. Correspondence analysis: theory, practice and new strategies. Hoboken: John Wiley & Sons,2014,130-186.
[2]曹玉茹.基于SPSS對(duì)應(yīng)分析的定性數(shù)據(jù)分析方法研究[J].福建電腦,2018,34(10):4-6,20.
[3]孫道志.統(tǒng)計(jì)分析中對(duì)應(yīng)分析方法應(yīng)用[J].黃山學(xué)院學(xué)報(bào), 2006,(03):13-16.
[4]高妍,張慧,李蓮蓮,等.計(jì)量資料對(duì)應(yīng)分析在SAS和SPSS軟件中的實(shí)現(xiàn)[J].中國(guó)衛(wèi)生統(tǒng)計(jì),2019, 36(02):302-305,308.
[5]Freudenthal M,Martνn-Suαrez E,Gallardo JA, Daroca AG, MinwerBarakat R.The application of Correspondence Analysis in palaeontology.Comptes Rendus Palevol,2009,8:1-8.