• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Copula理論的學(xué)生成績(jī)平均值和中位數(shù)的分布特征研究

      2016-05-10 07:04:32張曉宇徐付霞天津工業(yè)大學(xué)理學(xué)院天津300387
      大學(xué)數(shù)學(xué) 2016年1期
      關(guān)鍵詞:中位數(shù)平均值

      張曉宇, 徐付霞(天津工業(yè)大學(xué)理學(xué)院,天津300387)

      ?

      基于Copula理論的學(xué)生成績(jī)平均值和中位數(shù)的分布特征研究

      張曉宇, 徐付霞
      (天津工業(yè)大學(xué)理學(xué)院,天津300387)

      [摘 要]用高斯混合模型擬合82個(gè)班級(jí)2296名學(xué)生的考試成績(jī)分布數(shù)據(jù).用正態(tài)分布擬合考試成績(jī)的平均分和中位數(shù)成績(jī),研究?jī)烧唛g的相關(guān)性度量和相關(guān)結(jié)構(gòu),得到均值和中位數(shù)的聯(lián)合分布函數(shù).對(duì)兩個(gè)描述集中趨勢(shì)的統(tǒng)計(jì)量的概率統(tǒng)計(jì)特性進(jìn)行了完備刻畫(huà).

      [關(guān)鍵詞]混合高斯模型;平均值;中位數(shù);相關(guān)結(jié)構(gòu)

      1 引 言

      平均值是常用的數(shù)據(jù)中心趨勢(shì)度量,它對(duì)非常大或非常小的觀測(cè)值較敏感,偏向尾部較厚的方向.中位數(shù)是中心趨勢(shì)的耐抵性度量,它不受極端觀測(cè)值的影響,對(duì)于偏度極大的數(shù)據(jù)集,中位數(shù)能夠較好地描述數(shù)據(jù)分布的中心.對(duì)于有一點(diǎn)偏度或者沒(méi)有偏度的丘型分布,均值和中位數(shù)近似相等.由于均值比中位數(shù)具有更好的數(shù)學(xué)性質(zhì),因此在推斷方法中,常用均值作為中心趨勢(shì)的度量,當(dāng)這兩個(gè)量同時(shí)用在數(shù)據(jù)的統(tǒng)計(jì)分析中時(shí),就是對(duì)數(shù)據(jù)中心的很好描述.

      學(xué)生成績(jī)一般不服從對(duì)稱的正態(tài)分布[1].我們調(diào)研整理了82個(gè)班級(jí),2296名大學(xué)生的高等數(shù)學(xué)考試成績(jī)數(shù)據(jù),統(tǒng)計(jì)分析顯示數(shù)據(jù)不服從正態(tài)分布,可用混合高斯模型擬合學(xué)生成績(jī)的分布密度函數(shù).進(jìn)一步統(tǒng)計(jì)計(jì)算每個(gè)班級(jí)考試成績(jī)的平均分和中位數(shù)成績(jī),得到82組成績(jī)數(shù)據(jù),研究這82個(gè)平均分或中位數(shù)成績(jī)的分布,發(fā)現(xiàn)它們均服從正態(tài)分布.再研究?jī)烧唛g的相關(guān)性度量和相關(guān)結(jié)構(gòu),就可以得到均值和中位數(shù)的聯(lián)合分布函數(shù).這樣就對(duì)兩個(gè)描述集中趨勢(shì)的統(tǒng)計(jì)量的概率統(tǒng)計(jì)特性進(jìn)行了完備刻畫(huà).

      2 學(xué)生成績(jī)的高斯混合分布模型

      82個(gè)班級(jí),2296名大學(xué)生的高等數(shù)學(xué)考試成績(jī)數(shù)據(jù)的幾個(gè)描述性統(tǒng)計(jì)量值如表1,成績(jī)分布的頻率直方圖如圖1.

      表1 學(xué)生成績(jī)數(shù)據(jù)的描述性統(tǒng)計(jì)量

      數(shù)據(jù)的峰度系數(shù)為3.342(>3),偏度系數(shù)為-0.986(<0),說(shuō)明學(xué)生成績(jī)的分布是尖峰厚尾左偏的.再對(duì)數(shù)據(jù)做Kolmogorov-Smirnov正態(tài)性檢驗(yàn)的P值很小,為2.4433×10-31,說(shuō)明數(shù)據(jù)與正態(tài)分布偏差很大.下面用高斯混合模型擬合學(xué)生成績(jī)的分布密度.

      高斯混合模型GMM(Gaussian Mixture Model)就是一些高斯(正態(tài))分布的加權(quán)組合,其概率密度函數(shù)為

      圖1 成績(jī)分布的頻率直方圖

      其中參數(shù)μzi,σzi,i=1,2,…,N分別為第i個(gè)高斯成分的均值和方差,πi是第i個(gè)高斯成分的系數(shù),滿足可用EM算法估計(jì)這些參數(shù).

      EM(Expectatioin-Maximalization)是一種聚類算法,可以求出高斯分布的參數(shù),同時(shí)將數(shù)據(jù)分類[2].混合模型聚類常通過(guò)貝葉斯信息準(zhǔn)則(BIC)選擇模型,模型的BIC值越大,該模型就越符合實(shí)際.

      用R軟件mclust包中的Mclust函數(shù)對(duì)成績(jī)數(shù)據(jù)進(jìn)行聚類并估計(jì)參數(shù)[3],比較聚為1到8類時(shí)的BIC值,見(jiàn)表2.可見(jiàn)當(dāng)聚為4類時(shí),BIC值最大,為-19901.21,此時(shí)的8個(gè)參數(shù)估計(jì)值見(jiàn)表3(這里π1+π2+π3+π4=1,且為了簡(jiǎn)化模型,假定各類方差相等).

      表2 不同聚類個(gè)數(shù)的BIC值

      表3 N=4模型的參數(shù)估計(jì)值

      將表2的數(shù)據(jù)代入(1)式,就得到學(xué)生成績(jī)的分布密度函數(shù)為

      3 平均值和中位數(shù)的擬合正態(tài)分布

      82組平均分珡X和中位數(shù)m0.5數(shù)據(jù)的統(tǒng)計(jì)描述見(jiàn)表4的第2,3行,頻率直方圖見(jiàn)圖2.表4顯示,平均分珡X的最大觀測(cè)值是88分,最小值是39.63分,說(shuō)明考試成績(jī)的差別還是比較顯著的.中位數(shù)m0.5最大觀測(cè)值是95.5分,最小值是27.75分,比較平均分與中位數(shù)的幾個(gè)成績(jī)指標(biāo),發(fā)現(xiàn)大體上平均成績(jī)小于中位數(shù)成績(jī),說(shuō)明學(xué)生成績(jī)的分布基本上是負(fù)偏態(tài)的,即成績(jī)好的多一些.

      表4 平均分珡X和中位數(shù)m0.5成績(jī)的基本統(tǒng)計(jì)量

      圖2 平均數(shù)、中位數(shù)的直方圖和正態(tài)密度曲線

      雖然2296個(gè)原始成績(jī)數(shù)據(jù)不服從正態(tài)分布,但是由圖2可看出82個(gè)平均分或中位數(shù)數(shù)據(jù)有可能服從正態(tài)分布.對(duì)平均分和中位數(shù)分別作均值為67.57,標(biāo)準(zhǔn)差為10.57和均值為71.66,標(biāo)準(zhǔn)差為12.38的Kolmogorov-Smirnov正態(tài)性檢驗(yàn),檢驗(yàn)的p值分別為0.2017和0.6283,說(shuō)明兩者均服從正態(tài)分布,即

      可以將(3)和(4)式作為中位數(shù)和平均值的邊緣分布,下面研究它們的相關(guān)性.

      通過(guò)計(jì)算,學(xué)生成績(jī)數(shù)據(jù)的平均值和中位數(shù)的線性相關(guān)系數(shù)為0.956,和諧性度量Kendall秩相關(guān)系數(shù)為0.848,Spearman秩相關(guān)系數(shù)為0.962.說(shuō)明平均分成績(jī)和中位數(shù)成績(jī)之間存在較強(qiáng)的單增相關(guān)關(guān)系[4].為了更全面深刻地刻畫(huà)中位數(shù)和平均值的相關(guān)關(guān)系,下面利用相關(guān)結(jié)構(gòu)函數(shù)Copula對(duì)兩者的相關(guān)性進(jìn)行分析[5].

      4 平均值和中位數(shù)的相關(guān)結(jié)構(gòu)

      先選用3類5種常用的Copula函數(shù)族進(jìn)行分析,再?gòu)闹刑暨x出與數(shù)據(jù)擬合程度較好的一種Copula.

      (i)Gaussian Copula(其中α是相關(guān)參數(shù))

      (ii)t Copula(其中ρ是相關(guān)參數(shù),k表示自由度)

      Clayton Copula

      (iii)Archimedean Copula族(其中β是相關(guān)參數(shù))Gumbel Copula

      Frank Copula

      半?yún)?shù)估計(jì)是用樣本經(jīng)驗(yàn)分布函數(shù)代替邊緣分布,估計(jì)Copula函數(shù)中未知參數(shù)的方法[6].其表達(dá)式為

      其中θ為待估參數(shù)向量,ui,vi分別為隨機(jī)變量X,Y的經(jīng)驗(yàn)分布函數(shù),c(ui,vi;θ)為Copula的密度函數(shù).運(yùn)用半?yún)?shù)法求得學(xué)生成績(jī)的平均值和中位數(shù)的五種Copula參數(shù)估計(jì)值如表5.

      表5 5種Copula函數(shù)的參數(shù)估計(jì)值

      畫(huà)出平均分和中位數(shù)的二元頻數(shù)分布直方圖,見(jiàn)圖3.可以看出它們的下尾相關(guān)性較強(qiáng),上尾相關(guān)性較弱,具有不對(duì)稱的尾部分布.說(shuō)明學(xué)生考試成績(jī)的平均分和中位數(shù)對(duì)于下尾數(shù)據(jù)即較差的考分較敏感.

      進(jìn)一步,求解上述5種Copula函數(shù)的參數(shù)和相關(guān)系數(shù)等相關(guān)性測(cè)度指標(biāo)如表6.由表6可見(jiàn),5種Copula的兩種秩相關(guān)系數(shù)Kendall’sτ與Spearman’sρ與樣本學(xué)生成績(jī)的兩種秩相關(guān)系數(shù)τ=0.848,ρ =0.962較接近.Clayton Copula的下尾相關(guān)系數(shù)較大,上尾相關(guān)系數(shù)為0,圖4顯示其密度函數(shù)的尾部特征與圖3較一致,所以初步認(rèn)為Clayton Copula適合用來(lái)描述學(xué)生成績(jī)的平均分和中位數(shù)之間的相關(guān)關(guān)系.

      圖3 平均分和中位數(shù)的頻數(shù)分布直方圖

      圖4 Clayton Copula密度函數(shù)圖

      表6 Copula函數(shù)的相關(guān)性測(cè)度指標(biāo)

      再根據(jù)距離公式[7]

      表7 5種擬合Copula與經(jīng)驗(yàn)Copula函數(shù)的歐氏距離

      由表7中數(shù)據(jù)可以看出,Clayton Copula與經(jīng)驗(yàn)Copula函數(shù)的歐氏距離最小,即誤差最小,所以我們選擇參數(shù)為β=8.5806的Clayton Copula函數(shù)(8)式來(lái)描述學(xué)生成績(jī)的平均分和中位數(shù)之間的相關(guān)結(jié)構(gòu),即

      由Sklar定理[5],(12)式和平均分的擬合分布(3)式、中位數(shù)的擬合分布(4)式一起構(gòu)成了平均分和中位數(shù)的聯(lián)合分布函數(shù):

      上述聯(lián)合分布函數(shù)(13)式是對(duì)平均值和中位數(shù)之間關(guān)系的較完備刻畫(huà).比如平均分小于其平均值67.57,同時(shí)中位數(shù)小于其平均值71.66(數(shù)據(jù)見(jiàn)表4)的概率為F(67.57,71.66)=0.4613,同理可以求出平均分和中位數(shù)同時(shí)小于各自最小值、1/4分位數(shù)、中位數(shù)、3/4分位數(shù)、最大值的概率值,數(shù)據(jù)見(jiàn)表4的最后一行.

      可以預(yù)見(jiàn),本文所述方法還可應(yīng)用于經(jīng)濟(jì)金融數(shù)據(jù)的統(tǒng)計(jì)分析,如分析城鎮(zhèn)職工的工資水平等,將平均工資和中位數(shù)工資結(jié)合起來(lái)進(jìn)行分析,可能會(huì)得到更加客觀的結(jié)論.

      [參 考 文 獻(xiàn)]

      [1] 尹向飛.基于混合正態(tài)分布的大學(xué)生考試成績(jī)分布的擬合[J].統(tǒng)計(jì)與決策,2007(8):133-135.

      [2] Aitkin M,Wilson GT.Mixture models,Outliers,and the EM algorithm[J].Technometrics,1980(22):325-331.

      [3] 薛毅,陳立萍.統(tǒng)計(jì)建模與R軟件[M].北京:清華大學(xué)出版社,2007.

      [4] 徐付霞,董永權(quán).泥石流地貌要素的極值相關(guān)性[J].系統(tǒng)工程理論與實(shí)踐,2009,29(2):180-185.

      [5] Nelsen R B.An Introduction to Copulas[M].New York:Springer,1999.

      [6] G Kim,M J Silvapulle,P Silvapulle.Comparison of semiparametric and parametric methods for estimating copulas[J].Computational Statistics &Data Analysis,2007(51):2836-2850.

      [7] 李玉敦,謝開(kāi)貴,胡博.基于Copula函數(shù)的多維時(shí)序風(fēng)速相依模型及其在可靠性評(píng)估中的應(yīng)用[J].電網(wǎng)技術(shù),2013 (3):840-846.

      The Dependence Between Mean and Median Score of Students and the Establishment of Composite Indicator

      ZHANG Xiao-yu, XU Fu-xia
      (School of Mathematics and Physics,Tianjin Polytechnic University,Tianjin 300387,China)

      Abstract:The Gaussian mixture model is applied to fit the distribution of 2296students’score in 82classes.Then we fit the distribution of median and mean score use the normal distribution.We study the dependence measures and copula between median and mean statistics and get the joint probability density function of them.We provide a complete depiction of the two statistics’probabilistic properties which represent the central tendency.

      Key words:Gaussian mixture model;mean;median;copula

      [收稿日期]2014-11-15

      [中圖分類號(hào)]O212.5

      [文獻(xiàn)標(biāo)識(shí)碼]B

      [文章編號(hào)]1672-1454(2016)01-0056-05

      猜你喜歡
      中位數(shù)平均值
      “平均值代換”法在數(shù)學(xué)解題中的應(yīng)用
      平均值的一組新不等式
      數(shù)據(jù)的數(shù)字特征教學(xué)設(shè)計(jì)
      由時(shí)變Lévy噪聲驅(qū)動(dòng)的隨機(jī)微分方程的平均值原理
      中位數(shù)計(jì)算公式及數(shù)學(xué)性質(zhì)的新認(rèn)識(shí)
      2015年中考數(shù)學(xué)模擬試題(五)
      2015年中考數(shù)學(xué)模擬試題(二)
      中位數(shù)教學(xué)設(shè)計(jì)
      平面圖形中構(gòu)造調(diào)和平均值幾例
      基于電流平均值的改進(jìn)無(wú)功檢測(cè)法
      房产| 庆阳市| 麦盖提县| 杭州市| 元氏县| 吴堡县| 安多县| 兴文县| 安吉县| 蒙阴县| 于都县| 顺义区| 广元市| 肥乡县| 兴隆县| 山东省| 游戏| 贞丰县| 喀什市| 澜沧| 秀山| 双流县| 华池县| 全南县| 永善县| 镇沅| 安龙县| 深圳市| 深州市| 富蕴县| 黔西县| 上饶县| 清水河县| 巴青县| 舟山市| 错那县| 乌兰察布市| 洱源县| 得荣县| 深水埗区| 二连浩特市|