蔡明 季茜 李培德
1. 湖北省氣象信息與技術(shù)保障中心 湖北 武漢 430074;2. 暴雨監(jiān)測(cè)預(yù)警湖北重點(diǎn)實(shí)驗(yàn)室 湖北 武漢 430074
相關(guān)關(guān)系是變量間客觀存在的一種相互依存關(guān)系,是進(jìn)行系統(tǒng)結(jié)構(gòu)和功能分析[1-2]的基礎(chǔ)。而相關(guān)系數(shù)作為用于量化變量間相關(guān)關(guān)系的統(tǒng)計(jì)指標(biāo)[3-5],在如氣象[6-7]、航空[8-10]、電子[11-12]等領(lǐng)域得到廣泛應(yīng)用。以往的相關(guān)性分析多使用簡(jiǎn)單相關(guān)、典型相關(guān)等建立于線性相關(guān)[13]基礎(chǔ)上的分析方法,僅能反映變量間的線性相關(guān)程度,無(wú)法反映變量間的非線性相關(guān)程度,故存在一定的局限性。
本文引入距離相關(guān)方法,利用變量間距離信息取代傳統(tǒng)相關(guān)性分析方法中的變量與其數(shù)學(xué)期望間差值信息,提出了一種適用于非線性相關(guān)分析的相關(guān)系數(shù)計(jì)算方法,并通過(guò)非線性函數(shù)對(duì)算法進(jìn)行驗(yàn)證,實(shí)驗(yàn)結(jié)果表明,算法克服了傳統(tǒng)相關(guān)性分析方法僅適用于線性相關(guān)分析的不足。
傳統(tǒng)的相關(guān)性分析方法包括皮爾遜相關(guān)[14]分析、肯德?tīng)栂嚓P(guān)[15]分析和斯皮爾曼相關(guān)[16]分析,其中最為常用的是皮爾遜相關(guān)分析。
距離相關(guān)概念最早由Szekely,Rizzo和Bakirov于2007年提出。作為一種對(duì)于隨機(jī)變量間關(guān)系的全新度量方法,距離相關(guān)具有同皮爾遜相關(guān)類(lèi)似的真實(shí)相關(guān)性測(cè)度的性質(zhì),但是實(shí)際上使用的是變量間距離替代皮爾遜相關(guān)的協(xié)方差和標(biāo)準(zhǔn)差概念。也就是說(shuō)距離相關(guān)性不是根據(jù)樣本點(diǎn)和樣本統(tǒng)計(jì)期望之間的距離來(lái)估計(jì)兩個(gè)變量如何共同變化,而是根據(jù)樣本點(diǎn)與其他樣本點(diǎn)間的距離來(lái)估計(jì)變量是如何變化的,從而更好地捕捉變量間線性以及非線性依賴(lài)關(guān)系。
2.2.1 距離相關(guān)統(tǒng)計(jì)。
2.2.2 距離相關(guān)系數(shù)計(jì)算。
距離相關(guān)系數(shù)R滿(mǎn)足0≤R≤1,其中,當(dāng)且僅當(dāng)X和Y獨(dú)立分布時(shí),R=0;當(dāng)且僅當(dāng)X和Y的相關(guān)程度達(dá)到最大時(shí),R=1。
需要注意的是,距離相關(guān)系數(shù)R為非負(fù)數(shù),所以只能反映變量間彼此相關(guān)的程度,無(wú)法反映變量間呈現(xiàn)的是正的相關(guān)關(guān)系還是負(fù)的相關(guān)關(guān)系。
3.2.1 線性模型。使用以下線性模型進(jìn)行驗(yàn)證:
得到的線性模型下的采樣散點(diǎn)圖如圖1所示。
圖1 線性模型下的樣本點(diǎn)和最佳擬合直線圖
由圖1可知,隨機(jī)采樣得到的樣本呈線性分布,且分布于最佳擬合直線兩側(cè)。仿真結(jié)果的具體統(tǒng)計(jì)參數(shù)如表1所示。
表1 線性模型下的統(tǒng)計(jì)參數(shù)
因此,如果兩個(gè)變量線性相關(guān),則使用皮爾遜相關(guān)系數(shù)或距離相關(guān)系數(shù)都可以很好地反映變量間的相關(guān)關(guān)系。
3.2.2 波形模型。使用以下波形模型進(jìn)行仿真:
得到的波形模型下的采樣散點(diǎn)圖如圖2所示。
圖2 波形模型下的樣本點(diǎn)和最佳擬合直線圖
圖2中,隨機(jī)采樣得到的樣本呈波性非線性分布。仿真結(jié)果的具體統(tǒng)計(jì)參數(shù)如表2所示。
表2 波形模型下的統(tǒng)計(jì)參數(shù)
因此,波形模型仿真中,距離相關(guān)系數(shù)比皮爾遜相關(guān)系數(shù)更能反映出變量間的相關(guān)關(guān)系。
仿真結(jié)果顯示:如果兩變量線性相關(guān),使用皮爾遜相關(guān)分析和距離相關(guān)分析算法都會(huì)得到相似的相關(guān)性分析結(jié)果;如果兩變量非線性相關(guān),則距離相關(guān)分析結(jié)果比皮爾遜相關(guān)分析結(jié)果更能體現(xiàn)變量間的真實(shí)關(guān)系。
本文將距離相關(guān)方法應(yīng)用于變量間相關(guān)系數(shù)的計(jì)算中,提出基于距離相關(guān)的相關(guān)系數(shù)算法:使用變量間距離取代皮爾遜相關(guān)系數(shù)計(jì)算中變量與變量均值之間的距離,從而能更好體現(xiàn)變量間的真實(shí)依賴(lài)測(cè)度,可用于線性和非線性模型下的變量相關(guān)性分析場(chǎng)景,克服了皮爾遜相關(guān)系數(shù)應(yīng)用存在的局限性。
由于距離相關(guān)系數(shù)計(jì)算結(jié)果為非負(fù)數(shù)的特性,決定了距離相關(guān)分析只能分析兩變量間相關(guān)性的強(qiáng)弱而無(wú)法給出變量間呈現(xiàn)的是正相關(guān)關(guān)系還是負(fù)相關(guān)關(guān)系。
雖然存在以上不足,距離相關(guān)系數(shù)算法還是可以為變量間相關(guān)性分析提供一種新的思路和方法,具有一定的實(shí)踐意義。