• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      經(jīng)典相關系數(shù)及統(tǒng)計功效對比研究

      2022-01-20 11:03:24邵福波
      關鍵詞:單調(diào)功效網(wǎng)格

      劉 輝,邵福波,宮 響*

      (1.青島科技大學 數(shù)理學院,山東 青島 266061;2.北京交通大學 軌道交通控制與安全國家重點實驗室,北京 100044;3.中車工業(yè)研究院有限公司 技術部,北京 100070)

      隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計算等信息技術的迅猛發(fā)展,信息技術與人類世界的各個方面相互交融,大數(shù)據(jù)時代應運而生。人類的數(shù)據(jù)采集能力不斷提升,數(shù)據(jù)量每年增長約50%,呈爆炸式增長,對數(shù)據(jù)進行有效地分析與挖掘,將推動國家、企業(yè)乃至整個社會的高效、可持續(xù)發(fā)展[1]。大數(shù)據(jù)時代的一個重要的特點是數(shù)據(jù)量大、數(shù)據(jù)維數(shù)高,如何從海量的、高維的數(shù)據(jù)中快速發(fā)掘數(shù)據(jù)的相關關系是一個重要問題[2]。

      數(shù)據(jù)間的關系可分為:確定性關系,即把特征或者屬性用變量表示,變量之間存在一一對應的映射關系,該類關系為函數(shù)關系;不確定性關系,即一個變量取一定值時,另一個變量由于受到隨機因素的影響,對應的值可能是幾個,并且都是以不同的概率出現(xiàn),該類關系為相關關系?,F(xiàn)實生活中,變量之間的相關關系往往是非線性的,相關程度各有差異,如何度量這樣關系的強弱是人們關注的問題。

      相關系數(shù)是衡量變量間相關關系強弱的重要指標。這里的相關系數(shù)是總稱,不按統(tǒng)計指標的名稱區(qū)分線性、非線性及復相關系數(shù)等,文中提到的具體相關系數(shù)均采用特定名稱。1888年,GALTON從人類遺傳學中提出了“相關”的概念;1920年,PEARSON提出了沿用至今的Pearson相關系數(shù)[3]。至2000年前,相關系數(shù)研究進展較慢,主要適用于衡量兩個變量間的線性或非線性單調(diào)相關關系,例如Spearman相關系數(shù)[4]、Kendall相關系數(shù)[5]、Hoeffding’s D統(tǒng)計量[6]以及RéNYI在1959年提出的最大相關系數(shù)[7]等。2000年之后,隨著數(shù)據(jù)量的增長,維數(shù)的增多,相關系數(shù)的研究得到了快速發(fā)展,大量的相關系數(shù)的計算方法被提出,可適用于衡量更復雜的相關關系,例如2004年的基于互信息的相關系數(shù)[8]、2007年的距離相關系數(shù)[9]、2011年的最大信息系數(shù)[10]以及2013年的Heller-Heller-Gorfine(H HG)方法[11]等。

      對于高維數(shù)據(jù)間的相關性,目前常用的衡量方法是距離相關系數(shù)和H HG方法,可度量任意維度上的相關系數(shù)。此外,由于高維數(shù)據(jù)可看作是一個樣品含有多個屬性,對具有高維特征的兩個變量的相關性進行衡量就相當于對兩大類樣品間的相關性的衡量,因此也可采用遍歷的方法分別計算。

      本研究在總結(jié)相關系數(shù)計算方法的基礎上,選取五種經(jīng)典的主流相關系數(shù):Pearson相關系數(shù)、Spearman相關系數(shù)、距離相關系數(shù)、最大信息系數(shù)和HHG方法,通過對比分析不同高度復雜的數(shù)據(jù)關系,給出了不同相關系數(shù)適用范圍。

      1 相關系數(shù)的定義與計算方法

      1.1 相關系數(shù)類型

      總體上,按計算方法,相關系數(shù)可以大致分為4類[12-13]。

      1)秩統(tǒng)計量法,即計算兩個變量中每個觀測值的秩,對比兩個變量秩統(tǒng)計量之間的共同變化趨勢。Spearman相關系數(shù)是歷史最悠久的、也是普遍應用的秩相關系數(shù)。1938年KENDALL引入?yún)f(xié)同的概念,提出了τ相關系數(shù)。1948年,HOEFFDING提出的D統(tǒng)計量,是通過計算變量的聯(lián)合秩統(tǒng)計量與其各變量間邊際秩統(tǒng)計量乘積的差異來衡量變量間是否獨立,即經(jīng)樣本計算所得的統(tǒng)計量大于某一閾值,則拒絕兩個隨機變量是獨立的假設,但是該檢驗方式不對總體分布進行假設,因此是有偏的。

      2)基于距離與核方法,這種方法是Pearson相關系數(shù)的擴展,即仍然采用Pearson相關系數(shù)的計算方式,將其度量線性相關關系擴展到非線性相關關系。如,2005年GRETTON等[14]提出的希爾伯特-施密特獨立性準則(HSIC)方法,在計算互協(xié)方差時引入核函數(shù),通過計算協(xié)方差矩陣的特征值平方和來衡量相關性,選取不同的核函數(shù)效果會有些不同,但是能夠保證HSIC(X,Y)=0時,X和Y是獨立的。這一方法的一個重要進展是SZéKELY等[15]分別于2007年和2009年通過定義新型方差計算方法,提出了距離相關系數(shù)。

      3)分箱網(wǎng)格方法,即通過將X和Y離散劃分為多個區(qū)域,在每個區(qū)域內(nèi)應用經(jīng)典統(tǒng)計方法或信息論方法。2004年,KRASKOV等[8]提出基于K-近鄰距離算法劃分網(wǎng)格的熵估計,使得互信息具有自適應性和最小偏差;RESHEF等[16]在2011年、2015年提出最大信息系數(shù),是通過對雙變量的散點圖進行最優(yōu)分區(qū),并取最大的信息熵作為相關系數(shù);2013年,SUGIYAMA等[17]提出利用互信息維數(shù)衡量隨機變量間的相關性,這種方法可以看作是對最大信息系數(shù)的擴展;同年,HELLER等通過對數(shù)據(jù)進行分區(qū),形成多個2X2列聯(lián)表,引入置換檢驗,以提高相關關系衡量能力;2014年,WANG等[18]通過計算局部相等的秩統(tǒng)計量來挖掘雙變量間的相關關系;2016年,ZHANG[12]將相關性與Hadamard變換相結(jié)合,提出了二元擴展統(tǒng)計量和二元擴展檢驗來衡量變量間的相關性;2017年,WANG等[19]提出廣義R2,這是對使用距離和劃分網(wǎng)格方法的折中;2018年,ROMANO等[13]提出隨機信息系數(shù),是通過隨機網(wǎng)格估計信息熵。

      4)K-樣本檢驗方法,用于檢驗樣本是來源于某個分布,同時,也可以應用到相關性檢驗。2012年,GRETTON等[20]基于最大平均差異提出了核兩樣本檢驗;2015年,JIANG等[21]提出最優(yōu)離散化的非參數(shù)K-樣本檢驗;2016年,HELLER等[22]基于互信息理論提出的一致無分布K-樣本檢驗。

      秩統(tǒng)計量法以及基于距離與核的方法,具有明確的理論推導式,經(jīng)常用于獨立成分分析中,提取獨立變量成分;分箱網(wǎng)格方法,能更直觀通過對散點圖劃分網(wǎng)格呈現(xiàn)兩個變量間的相關性,但是網(wǎng)格的劃分方式、劃分數(shù)量都會影響到計算方式的時間復雜度;K-樣本檢驗方法,通過檢驗變量間的分布是否相等來確相關性,更適用于檢驗分類型變量和連續(xù)型變量之間的相關性[23-26]。

      1.2 經(jīng)典相關系數(shù)計算方法與檢驗

      1.2.1 Pearson相關系數(shù)

      Pearson相關系數(shù)是最經(jīng)典的線性相關系數(shù),也是應用最廣泛的相關系數(shù)。其計算方式是將協(xié)方差除以標準差,剔除了兩個變量量綱的影響,縮小到了0到1之間,就得到了Pearson相關系數(shù)(式1),可以將其理解為標準化后的特殊協(xié)方差。

      對Pearson相關系數(shù)進行顯著性檢驗,

      檢驗統(tǒng)計量為:

      在給定的顯著性水平α下,若拒絕原假設,則可認為總體的兩個變量存在線性相關關系,其中越接近1,線性相關性越強。

      1.2.2 Spearman相關系數(shù)

      Spearman相關系數(shù)可看作是Pearson相關系數(shù)衍生出的一種度量方法,該方法基于秩的理論,不需要假設變量之間是線性關系,也不是對原始數(shù)據(jù)直接進行計算,而是將原始數(shù)據(jù)的秩作為變量,計算Spearman相關系數(shù)。常用于推薦系統(tǒng)、經(jīng)濟分析、公共管理、生物醫(yī)療等領域。

      假設兩個隨機變量分別為X、Y(也可以看做兩個集合),它們的元素個數(shù)均為n,兩個隨機變量取的第i(1≤i≤n)個值分別用Xi、Yi表示。對X、Y中的元素進行排序,得到兩個元素排序后集合x、y,將排序后集合x、y中的元素對應相減得到一個排序差分集合d。已知樣本數(shù)據(jù),Spearman相關系數(shù)的計算方式:

      其中di=xi-yi,1≤i≤n,元素xi、yi分別為Xi在X中的排序以及Yi在Y中的排序。

      Spearman相關系數(shù)的顯著性檢驗與Pearson相關系數(shù)類似,在原假設成立的條件下檢驗統(tǒng)計量為ts近似服從自由度為n-2的t分布:

      在給定的顯著性水平下,若拒絕原假設,則可認為總體的兩個變量之間存在相關關系,Spearman相關系數(shù)越接近1,兩個變量間的相關性越強。

      1.2.3 距離相關系數(shù)

      距離相關,顧名思義,是基于范數(shù)(距離的度量方式之一)的理論提出的,又類似于積矩協(xié)方差和相關系數(shù),是對經(jīng)典的雙變量相關性度量方法進行的推廣和擴展,在很大程度上克服了Pearson相關系數(shù)不能度量非線性關系的弱點,常用于機器學習、特征工程等領域。該方法從隨機變量的特征函數(shù)出發(fā),定義了一個新的類似于加權2-L的范數(shù),則兩個隨機變量X、Y的協(xié)方差稱為距離協(xié)方差,記為dcov(X,Y),距離標準差分別為dcov(X)、dcov(Y)。其距離相關系數(shù)dcor(X,Y)是對距離協(xié)方差dcov(X,Y)的標準化。

      在樣本數(shù)據(jù)中,分別計算X、Y的歐幾里得距離矩陣,記為,其中k,l=1,2,…,n;并記ˉak·為距離矩陣ak,l的第k行平均;記ˉa·l為距離矩陣ak,l的第l列平均;記ˉa為距離矩陣ak,l的全平均;同理,可得ˉbk·、ˉb·l以及

      通過上述定義,利用樣本數(shù)據(jù)計算得到的距離相關系數(shù)為

      距離相關系數(shù)的取值范圍為0~1,當距離相關系數(shù)等于1時,兩個隨機變量間存在完全相關關系;當距離相關系數(shù)為0時,兩個隨機變量間不存在相關關系,即相互獨立。

      使用距離相關系數(shù)對兩個隨機變量進行相關檢驗,檢驗統(tǒng)計量為υ(X,Y),使用置換檢驗來計算在原假設成立的條件下的P值。

      利用距離相關系數(shù)對兩個隨機變量X、Y間的獨立性檢驗所提出的假設為

      對隨機變量X、Y之間的相關關系進行檢驗,置換檢驗過程如下:

      3)重復步驟1、步驟2多次(例如999次),分別計算出每次排列后的檢驗統(tǒng)計量。

      置換檢驗的P值為:重復多次計算得出的檢驗統(tǒng)計量υ(x,y*)中大于等于原始數(shù)據(jù)的檢驗統(tǒng)計量υ(x,y)的個數(shù)與重復次數(shù)的比值。

      1.2.4 最大信息系數(shù)

      最大信息系數(shù)(maximal information coefficient,MIC)于2011年提出,是用于檢測變量之間非線性相關性的最新方法。其思想為:如果兩個隨機變量之間存在某種關系,那么可以在兩個隨機變量的散點圖上劃分出多個網(wǎng)格,對數(shù)據(jù)進行分區(qū)以封裝這種關系。因此,最大信息系數(shù)計算的關鍵有兩個方面:1)網(wǎng)格劃分的數(shù)目,即在給定數(shù)據(jù)的散點圖上要劃分成多少個分區(qū);2)網(wǎng)格劃分的位置,即若在X軸上劃分a次,那么這a次劃分點是如何設置在x軸上的。最大信息系數(shù)常用于生物信息、醫(yī)學等領域。

      若已設定劃分網(wǎng)格數(shù)和劃分間隔點,則給定了一種劃分,計算該劃分方式下的信息熵為

      其中,D為給定的數(shù)據(jù)集;a、b是對這個數(shù)據(jù)集的劃分;f(x,y)是該區(qū)域內(nèi)的聯(lián)合概率密度,f(x)、f(y)分別為邊際概率密度。

      若確定了劃分網(wǎng)格的數(shù)目,則通過改變網(wǎng)格的劃分間隔點的位置,就會得到不同的信息熵,記其中最大的信息熵為maxI(D,a,b)。為了方便在不同維數(shù)之間進行比較,將其標準化,使其取值范圍設置在0到1之間。那么,最大信息系數(shù)定義為

      對兩個隨機變量進行的獨立性檢驗,提出假設:

      最大信息系數(shù)的檢驗統(tǒng)計量為MIC(D),其置換檢驗與上文中提到的距離相關系數(shù)的置換檢驗是相同的。

      1.2.5 HHG

      HELLER等[22]提出了一個新的相關關系檢驗方法,該方法基于秩的理論,依據(jù)距離的大小對原始數(shù)據(jù)進行分區(qū),從而形成多個2×2列聯(lián)表,再進行置換檢驗以確定數(shù)據(jù)間的相關關系。對于樣本數(shù)據(jù),首先分別計算樣本內(nèi)各個個體間的距離d(xi,xj),d(yi,yj),其中i,j∈{1,2,…,n}。假設隨機變量X、Y是獨立的并且存在連續(xù)的聯(lián)合密度函數(shù),那么在樣本(X,Y)空間中存在一個點(xi,yi),分別在該點周圍有個半徑為r的空間,如果數(shù)據(jù)間存在相關關系,那么在該空間的界限處X、Y的聯(lián)合分布是不等于邊際分布的笛卡爾積。H HG常用于遺傳學等領域。

      相關關系顯著性檢驗過程如下,定義:

      為檢驗隨機變量X、Y之間的相關性,提出假設:

      其中,F為隨機變量的分布函數(shù)。

      檢驗統(tǒng)計量為

      對兩個隨機變量進行的獨立性檢驗,H HG的置換檢驗與上文中提到的距離相關法的置換檢驗是相同的。H HG可以采用列聯(lián)表φ相關系數(shù)衡量變量間的相關程度:

      2 統(tǒng)計功效分析

      2.1 統(tǒng)計功效

      統(tǒng)計功效(statistical power)是指在假設檢驗的問題中,當原假設錯誤時,拒絕原假設的概率。其計算公式為

      其中,False(H0)表示原假設是錯誤的,β表示第二類錯誤。

      統(tǒng)計功效是檢驗某項實驗有效性的一個很有用的指標,功效越大,說明犯第二型錯誤的概率越小。在實際研究工作中,功效值越大說明拒絕零假設越有利,研究結(jié)果也越可靠。統(tǒng)計功效的設定一般為0.8,將它作為計算的閾值。當假設檢驗中的P值小于0.05且功效大于0.8時認為是有顯著差異的。

      2.2 統(tǒng)計功效的蒙特卡洛模擬

      蒙特卡洛模擬,又稱為統(tǒng)計模擬方法,是一類隨機方法的統(tǒng)稱。這類方法的特點是,可以在隨機采樣上計算得到近似結(jié)果,隨著采樣的次數(shù)增多,得到的結(jié)果是正確結(jié)果的概率逐漸加大,最終會收斂于實際值。本工作利用蒙特卡洛模擬計算統(tǒng)計功效,是通過大量模擬次數(shù)中,原假設發(fā)生的概率小于給定值(如0.01,0.05)的次數(shù)占比。

      比較不同相關系數(shù)的衡量能力,本工作選取了不同的樣本量(10、20、30、50、100、200、500)、數(shù)據(jù)類型(線性、非線性單調(diào)、非單調(diào)、非函數(shù))及噪聲水平等情景,比較不同相關系數(shù)的衡量能力。按照表1所示的數(shù)學表達式隨機生成模擬數(shù)據(jù),圖1展示本文所選取數(shù)據(jù)類型的散點圖。

      表1 模擬數(shù)據(jù)數(shù)學表示Table 1 Mathematical representation of simulated data

      圖1(a)表示兩個變量之間存在線性單調(diào)相關關系,圖1(e)表示兩個變量之間存在非線性單調(diào)相關關系,圖1(b)、(c)、(d)、(f)、(g)、(h)、(i)、(j)表示兩個變量之間存在非單調(diào)相關關系,圖1(k)、(l)表示兩個變量之間存在非函數(shù)關系。對每個相關關系在相同的噪聲水平下,選取的樣本量為10、20、30、50、100、200、300、500,通過蒙特卡洛模擬,計算得出5個相關系數(shù)的統(tǒng)計功效,結(jié)果如圖2所示。

      圖1 基于蒙特卡洛方法隨機生成的不同相關關系數(shù)據(jù)Fig.1 Generated data with different correlations randomly based on Monte Carlo method

      如圖2所示,5種相關系數(shù)度量方法在具有線性相關關系數(shù)據(jù)下的統(tǒng)計功效都為1,其中最大信息系數(shù)在樣本量為10時,其統(tǒng)計功效較其他方法低,但仍然高于0.8;具有非線性單調(diào)相關關系的數(shù)據(jù),5種相關系數(shù)度量方法的統(tǒng)計功效也為1;對于非單調(diào)關系,如圖2(c)、(d)、(g)、(j),Pearson相關系數(shù)或Spearman相關系數(shù)隨著樣本量的遞增,其統(tǒng)計功效也大于0.8,距離相關系數(shù)、最大信息系數(shù)和H HG,在大樣本情況下,可以度量出本研究中所提到的所有非單調(diào)相關關系以及非函數(shù)相關關系,對于小樣本情況,如果數(shù)據(jù)中不存在明顯的周期性,HHG的統(tǒng)計功效高于其他方法。

      圖2 不同樣本量下的統(tǒng)計功效Fig.2 Statistical power of different sample sizes

      在相同的樣本量,不同的噪聲水平下,如圖3所示,5種相關系數(shù)的統(tǒng)計功效與噪聲水平呈反比;在線性相關關系和非線性單調(diào)相關關系中,Pearson相關系數(shù)、Spearman相關系數(shù)和距離相關系數(shù)統(tǒng)計功效優(yōu)于最大信息系數(shù)和H HG的統(tǒng)計功效;對于非單調(diào)相關關系,當數(shù)據(jù)中存在明顯的周期性時,最大信息系數(shù)的統(tǒng)計功效最高,HHG的統(tǒng)計功效次之,當數(shù)據(jù)中不存在周期性時,H HG的統(tǒng)計功效高于其他相關系數(shù)的統(tǒng)計功效;對于非函數(shù)相關關系,HHG的統(tǒng)計功效最高。

      圖3 不同噪聲水平下的統(tǒng)計功效Fig.3 Statistical power at different noise levels

      由圖4所示,可以根據(jù)想要挖掘的相關關系選取不同相關系數(shù)。當數(shù)據(jù)量小于50時,使用Pearson相關系數(shù)和Spearman相關系數(shù)挖掘單調(diào)相關關系,使用HHG方法挖掘非單調(diào)相關關系;當數(shù)據(jù)量大于50時,還是使用Pearson相關系數(shù)和Spearman相關系數(shù)挖掘單調(diào)相關關系,使用H HG方法挖掘非單調(diào)相關關系,使用最大信息系數(shù)挖掘周期性相關關系。由第二節(jié)中相關系數(shù)的計算方法可知,H HG方法需要提前計算出數(shù)據(jù)之間的距離,因此當數(shù)據(jù)量過于龐大時,其計算過程有較高的空間復雜度,同時,H HG方法的檢驗統(tǒng)計量是通過對數(shù)據(jù)的全局計算得到的,其時間復雜度也相對較高。在選取不同的相關系數(shù)時,也需要將時間復雜度與空間復雜度考慮在內(nèi)。

      圖4 基于不同數(shù)據(jù)規(guī)模和相關關系的相關數(shù)選取樹Fig.4 Correlation coefficient selection tree based on different data sizes and correlations

      3 結(jié) 語

      對比不同度量高度復雜的數(shù)據(jù)關系的方法,并通過蒙特卡洛模擬得到不同相關系數(shù)的統(tǒng)計功效,對不同類型數(shù)據(jù)關系度量方法的使用做出引導。Pearson相關系數(shù)和Spearman相關系數(shù)更適合衡量線性、非線性單調(diào)相關關系,最大信息系數(shù)則更適合衡量含有周期性的相關關系,HHG方法則更適合衡量非函數(shù)相關關系。該研究可為挖掘不同相關關系,提供相關系數(shù)選取依據(jù)。該工作主要研究的是數(shù)值型變量間的相關關系,并未對分類型變量間的相關系數(shù),如φ相關系數(shù)、V相關系數(shù)、γ相關系數(shù)、λ相關系數(shù)等,進行對比總結(jié)。

      猜你喜歡
      單調(diào)功效網(wǎng)格
      用全等三角形破解網(wǎng)格題
      紅景天的神奇功效及作用
      被扔掉的蔥須大有功效
      數(shù)列的單調(diào)性
      數(shù)列的單調(diào)性
      對數(shù)函數(shù)單調(diào)性的應用知多少
      反射的橢圓隨機偏微分方程的網(wǎng)格逼近
      藏雪茶的養(yǎng)生功效
      重疊網(wǎng)格裝配中的一種改進ADT搜索方法
      如何讓你的化妝品發(fā)揮更大的功效
      健康女性(2017年3期)2017-04-27 22:30:01
      靖宇县| 剑川县| 洛南县| 新巴尔虎左旗| 福安市| 新化县| 大庆市| 桂东县| 漯河市| 周口市| 繁昌县| 开封市| 潞西市| 凯里市| 孟连| 鹤岗市| 宜春市| 英德市| 孝昌县| 鄱阳县| 揭西县| 资兴市| 怀远县| 永川市| 奉贤区| 灌南县| 平潭县| 阜阳市| 辽阳县| 色达县| 永和县| 通许县| 河西区| 金阳县| 阜平县| 嘉祥县| 平定县| 上高县| 基隆市| 岱山县| 阳高县|