孫其勇(安徽江淮電纜集團有限公司,安徽 巢湖 238371)
?
非參數(shù)密度估計在電線線纜質(zhì)量控制中的應(yīng)用
孫其勇
(安徽江淮電纜集團有限公司,安徽 巢湖 238371)
摘 要:本文用非參數(shù)密度估計構(gòu)造了數(shù)學(xué)模型。該模型不假定數(shù)據(jù)序列相依形式和概率分布形式,不涉及模型參數(shù)估計,只依靠數(shù)據(jù)本身驅(qū)動,克服了參數(shù)估計普適性不高的特征。本文探索了非參數(shù)密度估計在電線線纜質(zhì)量控制中的應(yīng)用,探索了一種精確度較高的的分析方法。
關(guān)鍵詞:核估計;窗寬;結(jié)果分析;擬合度
數(shù)理統(tǒng)計技術(shù),是先進(jìn)質(zhì)量管理的重要課題。目前在電線電纜行業(yè)中應(yīng)用較多的數(shù)理統(tǒng)計技術(shù)是傳統(tǒng)的參數(shù)統(tǒng)計方法,其基本步驟是:
第一,收集數(shù)據(jù);
第二,擬合參數(shù)模型;
第三,估計參數(shù)模型;
第四,指出擬合效果。
其核心思想是先假設(shè)確定的參數(shù)模型。這種方法對數(shù)據(jù)的分析通常有較好的精確度,比如假設(shè)正態(tài)分布模型,用矩估計、最大似然估計和最小二乘法求參數(shù)等等。但是這些方法的缺陷就是模型的假設(shè)對不同的樣本不具有普適性。本文探索利用非參數(shù)密度估計對電纜導(dǎo)體單絲的電阻率進(jìn)行分析,以尋求一種更為精確的統(tǒng)計方法。
表1 2.52mm模具拉出的銅單絲直徑
本文首先給出標(biāo)準(zhǔn)直徑為2.52mm的模具拉出的銅單絲直徑的樣本數(shù)據(jù)見表1(樣本容量為100,分16組,組距為0.000022mm),圖1為散點圖,圖2為直方圖,了解其所屬總體的基本性質(zhì):由上面的圖形,尤其是直方圖,我們能對這組樣本數(shù)據(jù)的分布有一個初步的了解??梢猿醪焦烙?,該樣本數(shù)據(jù)所屬總體是很不對稱的,并且左端有較長的尾端,從左向右整體有上升的趨勢,在最右端出現(xiàn)一個小的尾端。
2.1 核估計定義:設(shè)K(x)為R上的一個概率密度函數(shù),h>0是一個與n有關(guān)的常數(shù),則
稱fn為總體未知密度f(x)的一個核估計,其中函數(shù)K(x)稱為核,h為窗寬。
2.2 K(x)的確定
研究表明,窗寬h確定時,不同核函數(shù)的作用是等價的。實際工作中,一般先選定核函數(shù)K(x),然后再尋求最優(yōu)窗寬h。K(x)對fn的影響很小,因此滿足以下基本條件的核函數(shù)都合適:
①∫K(x)dx=1;
②函數(shù)連續(xù)且光滑;
③一階矩為零,方差有限。
常用的有均勻核,高斯核等。本文以高斯核為核函數(shù)。得到函數(shù)的核估計:
2.3 窗寬的確定
窗寬h越小,核估計密度對原數(shù)據(jù)的擬合度越大,但核估計的方差越大。反之,窗寬h越大,核估計的方差越小。通常選用LSCV法確定最佳窗寬,LSCV法是從現(xiàn)有的數(shù)據(jù)直接得到合理的窗寬,是計算最佳窗寬的經(jīng)典方法之一。其主要思想是由樣本作缺值估計來求最佳窗寬:
LSCV是基于積分平方誤差I(lǐng)SE最小準(zhǔn)則的一種計算方法,ISE為:
式(4)中最后一項與h無關(guān)。LSCV就是取式(4)中前兩項進(jìn)行最小化計算,實際上使式(5)達(dá)到最小:
將已知的各個樣本點值代入表達(dá)式,即可求得用核估計的窗寬h為0.105時,ICE最小為-5177。
本文利用以高斯核為核函數(shù)的核估計對樣本數(shù)據(jù)進(jìn)行分析,這樣就可以得到函數(shù)的核估計形式:
圖1 20℃銅單絲電阻率散點圖
圖2 20℃銅單絲電阻率直方圖
在統(tǒng)計方法中,不知道總體服從什么類型的分布,通常可以用皮爾遜Χ2擬合度檢驗來實現(xiàn)確定模型顯著性是否可接受,以確定一批數(shù)據(jù)是否真正來自假定的分布模型。對于連續(xù)型數(shù)據(jù),需先將樣本數(shù)據(jù)劃分成若干區(qū)間(即分組),要求分組后每組內(nèi)包含的樣本數(shù)不少于5個,若某些組內(nèi)數(shù)據(jù)的頻數(shù)小于5,則應(yīng)將該組與相鄰的組做適當(dāng)合并,然后再進(jìn)行檢驗。用fn估計總體密度f(x),所以檢驗問題等價于:
作為假設(shè)檢驗H0的統(tǒng)計量,在H0為真時近似有:
fi為第i組的樣本頻數(shù),npi是按照核估計密度函數(shù)計算得到的理論頻數(shù),k為在H0下X可能取值的子集數(shù),r為總體分布中需要估計的參數(shù)個數(shù)。該統(tǒng)計量近似服從自由度為k-r-1的Χ2分布,可知假設(shè)檢驗的拒絕域為:
α為顯著性水平,檢驗的臨界值為Χ2(1-α,k-r-1),當(dāng)目標(biāo)函數(shù)值大于臨界值時拒絕原假設(shè),認(rèn)為密度函數(shù)不是核估計方法得到的密度函數(shù);否則就不能拒絕原假設(shè)。
前文已經(jīng)提到,在樣本量很大的情況下,如果原假設(shè)成立,該統(tǒng)計量近似服從自由度為k-r-1的Χ2分布,在此k=9,r=1因此分布的自由度為7。參考任何帶有統(tǒng)計附表的書籍,均可以查閱到各個顯著性水平下自由度為7的Χ2分布臨界值,在此我們查閱參考文獻(xiàn)[5],查到α=0.05時,臨界值而h=0.105時14.067,檢驗統(tǒng)計量實現(xiàn)值12.815小于該臨界值,這就說明,在顯著性水平為0.05時,不能拒絕原假設(shè),即可以認(rèn)為通過非參數(shù)核估計方法得到密度函數(shù)的表達(dá)形式符合實際的總體分布形式。因此,我們可以進(jìn)一步相信上文選擇的窗寬值是“最優(yōu)”的,且在該窗寬取值下估計的總體密度函數(shù)是理想的。
鑒于參數(shù)模型的缺陷,本文基于核估計理論提出了非參數(shù)隨機模型。該模型避免了模型結(jié)構(gòu)(線性或非線性)選擇和參數(shù)不確定性問題,可以通過最終的擬合優(yōu)度檢驗。由LSCV法計算最佳窗寬保證了核密度估計的計算精度,是計算窗寬的一種實用且安全的方法。進(jìn)一步完善非參數(shù)密度估計方法在電線線纜質(zhì)量控制中的應(yīng)用,或許能為電線線纜質(zhì)量的提高提供一種精確度較高的分析方法。
參考文獻(xiàn)
[1]陳希儒,柴根象.非參數(shù)統(tǒng)計教材[M].上海:華東師范大學(xué)出版社,1993.
[2] Epanechnikov V A. Nonparametrie estimation of a multidimensional probability density [J]. Teory of probability and Application, 1969.
[3] Larry Wasserman.現(xiàn)代非參數(shù)統(tǒng)計[M].吳喜之譯.北京:科學(xué)出版社,2008.
[4]盛驟,謝石千,等.概率論與數(shù)理統(tǒng)計[M].北京:高等教育出版社,2008.
[5]吳喜之.非參數(shù)統(tǒng)計[M].北京:中國統(tǒng)計出版社,1999.
中圖分類號:O212
文獻(xiàn)標(biāo)識碼:A