• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于信息熵和Monte Carlo方法的分布檢驗

      2019-03-13 13:01:18張志娟李星野
      經(jīng)濟研究導刊 2019年3期
      關鍵詞:均勻分布置信區(qū)間信息熵

      張志娟 李星野

      摘 要:在統(tǒng)計分析中,分布檢驗非常重要,應用較多的檢驗方法有卡方檢驗、K-S檢驗、S-W檢驗、A-D檢驗等。提出一種借助Monte Carlo方法、采用信息熵指標實現(xiàn)統(tǒng)計分布檢驗的方法,檢驗結(jié)果的對比表明信息熵方法簡便有效。

      關鍵詞:信息熵;均勻分布;置信區(qū)間;卡方檢驗

      中圖分類號:O21 ? ? ? ?文獻標志碼:A ? ? ?文章編號:1673-291X(2019)03-0159-03

      引言

      在數(shù)據(jù)統(tǒng)計領域,分布檢驗是其中的重要步驟,具有方便、快速、準確等優(yōu)點,現(xiàn)已廣泛應用在醫(yī)學、統(tǒng)計學等領域,在判斷實驗結(jié)果是否符合預期,產(chǎn)品質(zhì)量是否合格等方面作用重大。卡方檢驗是基于統(tǒng)計樣本中實際觀測值與理論推斷值兩者偏離程度而發(fā)展起來的一種典型的分布檢驗方法,該方法可以解決檢驗數(shù)據(jù)是否符合假設的分布類型的問題,可以很好地描述分類資料統(tǒng)計推斷的特點。但是由于卡方檢驗較為依賴樣本空間的劃分,不同的樣本空間分段數(shù)會導致不同的結(jié)論[1~3]。K-S檢驗方法是另外一種較為典型的分布檢驗方法,它需要將做統(tǒng)計分析的數(shù)據(jù)和另一組標準數(shù)據(jù)進行對比,求得它和標準數(shù)據(jù)之間的偏差,但是當數(shù)據(jù)規(guī)模較小時,相應參數(shù)檢驗是無效的,統(tǒng)計推斷是不可信的[2,4~6];與K-S檢驗方法相對的是S-W檢驗方法,S-W檢驗解決了小樣本情況下數(shù)據(jù)服從正態(tài)分布的統(tǒng)計檢驗,但是這種檢驗方法在大樣本情況下的適用性是不明確的[4]。A-D檢驗方法成功解決了上述兩種方法的問題,且可以用于多種分布類型的檢驗,但是,A-D檢驗受兩端異常值的影響較大[4]。本文提出了一種新的分布檢驗方法,該方法基于Monte Carlo方法,運用信息熵理論,求得不同置信度的檢驗下邊界,可以檢驗隨機數(shù)的分布類型,信息熵方法更加簡便有效。

      一、信息熵方法實現(xiàn)分布檢驗的原理

      (一)檢驗原理

      本文對經(jīng)典的分布檢驗方法不再贅述,根據(jù)假設檢驗的基本原理,可以利用來自總體X的樣本x1,x2,x3…xn檢驗總體是否服從特定分布F0(X)。此時,檢驗的原假設為H0:F(x)=F0(x),備擇假設為H1:F(x)≠F0(x)。當原假設成立時,隨機變量Y=F0(X)服從[0,1]上的均勻分布[7]。因此,檢驗樣本x1,x2,x3…xn是否服從分布F0(X),可以轉(zhuǎn)化為檢驗y1,y2,y3…yn(其中yi=F0(xi))是否服從[0,1]上的均勻分布。對于均勻分布的檢驗,本文借助信息熵指標,基于Monte Carlo方法,求得檢驗均勻分布的下邊界,實現(xiàn)分布檢驗。

      (二)信息熵

      信息熵最早是從熱力學中熵這個概念演化而來,熵的物理意義表示體系混亂程度的度量[8]。信息論之父Shannon 指出,任何信息都存在冗余,冗余大小與信息中每個符號(數(shù)字、字母或單詞)的出現(xiàn)概率或者說不確定性有關[9]。信息熵表示信息中排除了冗余后的平均信息量,本文選取以e為底的自然對數(shù),信息熵可以表示為:

      式中,i∈[1,k]表示樣本空間劃分后的第i個區(qū)間,P(i)指樣本空間劃分后,在樣本含有n個子樣本的觀察中落入i區(qū)間的頻數(shù)ni與樣本個數(shù)n的比值。

      在判斷一組隨機數(shù)是否服從均勻分布時,根據(jù)數(shù)據(jù)的均勻性質(zhì),越均勻的數(shù)據(jù),其混亂程度越低,包含的信息量越大,信息熵越大。當數(shù)據(jù)完全均勻時,信息熵達到最大值,如下所示:

      其中,k表示樣本空間分段數(shù)。當數(shù)據(jù)完全均勻時,樣本容量大小對信息熵沒有影響。

      二、下邊界擬合過程

      當大量的值都具有計算出的概率時,國內(nèi)外通用的方法是運用Monte Carlo方法求得問題的解。Monte Carlo方法是指使用隨機數(shù)(或更常見的偽隨機數(shù))來解決很多計算問題的方法[9]。本文為了得到下邊界,采用Monte Carlo方法。實驗數(shù)據(jù)是通過隨機數(shù)生成器生成的,隨機生成服從[0,1]上均勻分布的數(shù)據(jù),數(shù)據(jù)包含100組,樣本容量為n,n∈{100, 200,300,400,500,600,700,800,900,1 000}。

      (一)95%下邊界擬合過程

      論文運用基于信息熵為指標的均勻分布檢驗的方法對數(shù)據(jù)進行檢驗的過程中,為了得到下邊界,本文以樣本容量n=100及95%下邊界為例進行說明,首先計算95%下邊界與樣本空間分段數(shù)的關系。當樣本容量n=100時,把樣本空間分成互不相容的k=2個區(qū)間,計算得到100個信息熵Hk,挑選升序排列的第6個信息熵作為95%熵,保證在95%熵以上包含95%的信息熵(改變置信度,邊界以上包含信息熵的個數(shù)不同,可以得到不同置信度的下邊界)。改變k∈[2,17]值,得到16個與樣本空間分段數(shù)k相關的95%熵,求得95%熵與樣本空間分段數(shù)k的關系擬合95%下邊界當數(shù)據(jù)容量n∈{200,300,400,500,600,700,800,900,1 000}時,95%下邊界與樣本空間分段數(shù)關系的計算方法同上。其次,計算95%下邊界與樣本容量的關系。

      本文首先研究了95%下邊界與樣本空間分段數(shù)k的關系及與樣本完全均勻時的信息熵Hk的距離。假設95%下邊界的形式為lnk-f(n,k),為了求的f(n,k)的具體形式,將16個95%熵與對應k的最大信息熵lnk作差,即yk=lnk-95%熵,yk為f(n,k)的真實值。

      圖1為當n=100時,差值yk和分段數(shù)k的折線圖,由圖中可以看出,差值yk隨著k的增大呈上升趨勢。為了進一步得到y(tǒng)k和k之間的關系,本文假設兩者之間為線性關系,函數(shù)形式為yk=a+b1k。將yk與k做OLS回歸,得a=0.0044,b1=0.00746,調(diào)整的R2為0.98516。但由于常數(shù)項a太小,假設函數(shù)不包含常數(shù)項為yk=b1k,OLS回歸結(jié)果為b1=0.00783,調(diào)整的R2為0.99685,OLS擬合效果很好。同時,觀察圖中差值和擬合函數(shù)曲線之間的關系,可以得出擬合函數(shù)對原曲線的擬合效果很好,因此假設yk和k之間的函數(shù)關系為線性是恰當?shù)摹?/p>

      本文進而研究了95%下邊界與樣本容量n的關系,當改變樣本容量n的值,求出b2,b3,b4…b10。下頁圖2為系數(shù)b與樣本容量n的關系,由圖中可以看出,系數(shù)b隨著樣本容量n的增加呈現(xiàn)出逐漸下降的趨勢。為了得到曲線的具體形式,假設曲線的函數(shù)形式為b=cnd,以非線性函數(shù)線性化方法計算c、d的值,得c=0.60571,d=-0.93745,調(diào)整的R2為0.99544。同時,觀察圖2中擬合函數(shù)曲線,對比擬合函數(shù)曲線與系數(shù)圖可知,擬合函數(shù)曲線對系數(shù)b與樣本容量n之間關系的擬合效果較好,且通過計算求得系數(shù)預測值與系數(shù)真實值之間的差值很小。因此,假設曲線的函數(shù)形式為冪函數(shù)是適當?shù)摹?/p>

      根據(jù)上述步驟,通過計算得:

      則95%下邊界的公式可以表示為:

      (二)樣本外數(shù)據(jù)驗證及其他下邊界

      為了檢驗通過以上方法得到的95%下邊界的準確性,需要通過樣本外數(shù)據(jù)進行驗證。隨機生成服從(0,1)上均勻分布的數(shù)據(jù),數(shù)據(jù)包含100組,每組數(shù)據(jù)的樣本容量為n,n∈{280,420,500,650,880,1 100,1 500}。檢驗結(jié)果為:當n=280,k=15時,95%下邊界=2.66522<95%熵=2.66594;當n=420,k=5時,95%下邊界=1.59982>95%熵=1.59946;當n=500,k=6時,95%下邊界=1.78203>95%熵=1.78194;當n=650,k=8時,95%下邊界=2.0694<95%熵=2.06972;當n=880,k=11時,95%下邊界=2.38761<95%熵=2.38796;當n=1100,k=15時,95%下邊界=2.69678>5%熵=2.69647;當n=1500,k=17時,95%下邊界=2.82378<95%熵=2.82434。

      對于樣本外數(shù)據(jù)進行任意分段時,通過以上方法得出的95%熵有較大部分大于95%下邊界,說明95%下邊界作為檢驗隨機數(shù)是否服從均勻分布的邊界是恰當?shù)?。例如,當樣本容量n=280、分段數(shù)k=15時,得到的95%熵為2.66594,是大于95%下邊界2.66522的,信息熵方法得到的95%下邊界是合適的。但是由于給出的邊界是不會包含所有的均勻分布數(shù)據(jù)的,還有一小部分的95%熵是小于95%下邊界的。

      根據(jù)上述方法,可以得出不同置信度的下邊界。當置信區(qū)間為90%時,下邊界為lnk-0.58775n-0.96634k;當置信區(qū)間為91%時,下邊界為lnk-0.59545n-0.96469k;當置信區(qū)間為92%時,下邊界為lnk-0.60894n-0.96497k;當置信區(qū)間為93%時,下邊界為lnk-0.61176n-0.9621k;當置信區(qū)間為94%時,下邊界為lnk-0.68140 n-0.97612k;當置信區(qū)間為95%時,下邊界為lnk-0.69751n-0.97577k;當置信區(qū)間為96%時,下邊界為lnk-0.72685n-0.97819k;當置信區(qū)間為97%時,下邊界為lnk-0.73876n-0.97331;當置信區(qū)間為98%時,下邊界為lnk-0.86220n-0.99301k;當置信區(qū)間為99%時,下邊界為lnk-0.99351n-1.00611k;當置信區(qū)間為100%時,下邊界為lnk-0.98126n-0.98655k。隨著置信區(qū)間的增大,下邊界逐漸遠離數(shù)據(jù)服從完全均勻分布時的上邊界。當樣本數(shù)據(jù)密度增加時,即使樣本分段數(shù)和樣本容量不同,下邊界也逐漸趨于重合。

      三、信息熵方法與卡方檢驗比較

      為了驗證本文運用信息熵和Monte Carlo方法得出的檢驗邊界的有效性,本文使用卡方檢驗來驗證上述實驗數(shù)據(jù)的均勻性。在用卡方檢驗檢驗本文實驗數(shù)據(jù)的均勻性過程中,選取不同樣本容量、不同分段數(shù)的95%信息熵的數(shù)據(jù)組進行檢驗。對于相同樣本容量,不同分段數(shù)會出現(xiàn)95%信息熵數(shù)據(jù)組是同一組數(shù)據(jù)的現(xiàn)象,為了避免重復計算,以下只需選取相同樣本容量的任意一個分段數(shù)進行卡方檢驗,檢驗結(jié)果同時作為其他分段數(shù)的結(jié)果。由于數(shù)據(jù)量大,檢驗結(jié)果只呈現(xiàn)一部分,以此說明結(jié)果的表示形式如:當樣本容量為100,分段數(shù)為2時,卡方檢驗P值為0.046;當樣本容量為100,分段數(shù)為3時,卡方檢驗P值為0.059;當樣本容量為100.分段數(shù)為4時,卡方檢驗P值為0.073等等,依此類推。

      在對95%信息熵數(shù)據(jù)組進行卡方檢驗的結(jié)果中,有94組數(shù)據(jù)的卡方檢驗p值是大于0.05的,表明在5%的顯著性水平下這些數(shù)據(jù)是不能拒絕服從均勻分布的原假設的,其余的數(shù)據(jù)在5%的顯著性水平下不能接受服從均勻分布的原假設。由于本文所用到的實驗數(shù)據(jù)是運用Monte Carlo方法隨機生成的服從均勻分布的數(shù)據(jù),運用本文的信息熵方法在95%下邊界檢驗下均是服從均勻分布的。但是在卡方檢驗下,95%信息熵數(shù)據(jù)組有41.25%的數(shù)據(jù)在5%(下轉(zhuǎn)168頁)(上接161頁)的顯著性水平下不能接受服從均勻分布的原假設。由此說明,在信息熵方法與卡方檢驗的對比下,卡方檢驗是稍顯嚴格的。

      結(jié)語

      本文根據(jù)均勻分布的性質(zhì)和信息熵指標的意義,運用Monte Carlo方法通過仿真實驗得出檢驗均勻分布的90%~100%的下邊界,經(jīng)過樣本外數(shù)據(jù)的驗證,最后運用信息熵方法與卡方檢驗進行對比,從而得出以下結(jié)論:信息熵方法計算過程簡便,結(jié)果準確有效,在實際運用中既優(yōu)化了計算步驟,又降低了應用復雜度。

      根據(jù)其他類型分布與均勻分布的關系,本文所提出的信息熵方法不僅可以實現(xiàn)均勻分布的檢驗,而且對于其他類型的分布也可以有效實現(xiàn)分布檢驗。

      猜你喜歡
      均勻分布置信區(qū)間信息熵
      基于信息熵可信度的測試點選擇方法研究
      定數(shù)截尾場合三參數(shù)pareto分布參數(shù)的最優(yōu)置信區(qū)間
      p-范分布中參數(shù)的置信區(qū)間
      多個偏正態(tài)總體共同位置參數(shù)的Bootstrap置信區(qū)間
      接觸壓力非均勻分布下彎曲孔道摩阻損失分析
      工程與建設(2019年5期)2020-01-19 06:22:26
      列車定位中置信區(qū)間的確定方法
      基于信息熵的實驗教學量化研究
      電子測試(2017年12期)2017-12-18 06:35:48
      電磁感應綜合應用檢測題
      一種基于信息熵的雷達動態(tài)自適應選擇跟蹤方法
      雷達學報(2017年6期)2017-03-26 07:52:58
      基于信息熵的IITFN多屬性決策方法
      富宁县| 凤城市| 观塘区| 调兵山市| 武平县| 湖北省| 皮山县| 河源市| 龙泉市| 临汾市| 平远县| 五华县| 六枝特区| 巩留县| 永兴县| 游戏| 汉中市| 崇阳县| 淮阳县| 马公市| 林州市| 安义县| 古丈县| 满城县| 泸州市| 台北市| 密山市| 天长市| 高密市| 封开县| 马公市| 辰溪县| 彭泽县| 茌平县| 包头市| 廉江市| 麻栗坡县| 上虞市| 镇安县| 永济市| 张家界市|