• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于含測量誤差半?yún)?shù)模型的糖尿病數(shù)據(jù)研究

      2022-02-24 01:52:40黃振生
      關(guān)鍵詞:估計(jì)量測量誤差變量

      孫 興, 黃振生

      (南京理工大學(xué) 理學(xué)院,南京 210094)

      0 引 言

      在醫(yī)療領(lǐng)域,糖尿病是備受關(guān)注的慢性病之一,也是全球嚴(yán)重的公共衛(wèi)生安全問題之一,它除了會(huì)給患者帶來痛苦之外,還會(huì)給家庭和社會(huì)帶來巨大的經(jīng)濟(jì)負(fù)擔(dān)和壓力。根據(jù)國際糖尿病聯(lián)盟(IDF)2017的調(diào)研結(jié)果顯示,全球共有約4.25億糖尿病患者,其中中國糖尿病患者占比超25%[1]。研究糖尿病與體質(zhì)測量數(shù)據(jù)之間的關(guān)系,可以更好地了解和預(yù)防糖尿病,因此具有較為重要的意義。研究的糖尿病數(shù)據(jù)集包含442個(gè)觀測樣本,其中響應(yīng)變量是糖尿病患者的定量測量數(shù)據(jù),協(xié)變量分別為年齡(Age)、性別(Sex)、體質(zhì)指數(shù)(BMI)、平均血壓(BP)和6種血清指標(biāo)測量數(shù)據(jù),分別以符號(hào)TC、LDL、HDL、TCH、LTG和GLU表示。

      部分變系數(shù)單指標(biāo)模型(PVCSIMs)是一類重要的半?yún)?shù)模型,它不僅保留了非參數(shù)模型的特點(diǎn),還能避免“維數(shù)災(zāi)禍”問題,因此是統(tǒng)計(jì)分析的重要工具,尤其在處理高維數(shù)據(jù)時(shí)十分有優(yōu)勢,模型的結(jié)構(gòu)如下:

      Y=θT(U)Z+g(βTX)+ε

      (1)

      可以看出,該模型具有一般性,它不僅兼有變系數(shù)模型和單指標(biāo)模型的特點(diǎn),還包含了許多其他重要的半?yún)?shù)模型作為特例:對于變系數(shù)部分,函數(shù)θ(·)表示的是Z和U的相互作用,如果假設(shè)θ(·)是常數(shù)向量,那么模型就可以看作是部分線性單指標(biāo)模型,若進(jìn)一步令系數(shù)函數(shù)向量θ(·)的維數(shù)q等于1,那么就可以得到單指標(biāo)模型。對于單指標(biāo)部分,若令聯(lián)系函數(shù)g(βTX)≡βTX,那么模型就變成了部分線性變系數(shù)模型,進(jìn)一步取參數(shù)β的維數(shù)p為1,模型就退化成了變系數(shù)模型。

      近年來,關(guān)于模型式(1)的研究成果已經(jīng)十分豐富。為了研究化學(xué)污染物水平與每天因呼吸系統(tǒng)疾病住院的總?cè)藬?shù)的關(guān)系,以及溫度和相對濕度對入院人數(shù)的影響,Wong等[2]首次提出PVCSIMs,他們結(jié)合二元局部線性方法、平均方法和一步回?cái)M技術(shù)(One-step Back-fitting Technique)得到函數(shù)和參數(shù)的有效估計(jì)?;谒麄兊难芯?,Huang和Zhang[3]進(jìn)一步利用廣義似然法(GLR)解決了模型中變系數(shù)部分的檢驗(yàn)問題。Li和Zhang[4]通過將系數(shù)函數(shù)和聯(lián)系函數(shù)樣條化,提出了模型的懲罰樣條估計(jì)方法,該方法可以同時(shí)得到未知參數(shù)和函數(shù)的估計(jì)值。Wang和Xue[5]的研究指出,Wong等[2]用二元局部線性光滑進(jìn)行估計(jì)可能會(huì)導(dǎo)致估計(jì)量不相合,因此,提出一種較為穩(wěn)定的逐步估計(jì)法對模型進(jìn)行估計(jì),其基本思想是:假設(shè)參數(shù)已知,將模型轉(zhuǎn)換成變系數(shù)模型,并利用Nadaraya-Watson核估計(jì)方法和局部線性回歸方法逐步得到系數(shù)函數(shù)和聯(lián)系函數(shù)的初步估計(jì),然后根據(jù)這些初始估計(jì)量計(jì)算未知參數(shù)的估計(jì)值,文章還討論了估計(jì)量的漸近性質(zhì),并且建立了逐點(diǎn)置信區(qū)間和置信域。Huang[6]通過經(jīng)驗(yàn)似然方法研究了單指標(biāo)參數(shù)的極大似然估計(jì),并且利用截面經(jīng)驗(yàn)似然方法構(gòu)造了各參數(shù)分量的置信區(qū)間。Huang[7]等結(jié)合SCAD(Smoothly Clipped Absolute Deviation)懲罰和逐步估計(jì)法研究了指標(biāo)參數(shù)β的變量選擇問題,在一定的正則化條件下,還構(gòu)建了估計(jì)量的大樣本性質(zhì)。最近,受到圖像數(shù)據(jù)分析的啟發(fā),Li等[8]討論了函數(shù)型數(shù)據(jù)下PVCSIMs的估計(jì)問題,利用局部線性方法逐步迭代得到了系數(shù)函數(shù)、聯(lián)系函數(shù)、指標(biāo)參數(shù)以及方差函數(shù)的估計(jì)值,并且證明提出的方法相較于Wong等[2]和Wang和Xue[5]中的方法更加穩(wěn)定。

      雖然半?yún)?shù)模型可以用來解決大部分回歸擬合問題,然而在實(shí)際應(yīng)用中,由于操作人員的失誤和測量工具不精確等問題,收集到數(shù)據(jù)中往往帶有測量誤差,因此進(jìn)一步研究半?yún)?shù)誤差模型是很有必要的。扭曲測量誤差(Distorted Measurement Error)作為誤差的常見形式,是近年來學(xué)者們研究的熱點(diǎn)問題。Sentürk 和 Müller[9]提出協(xié)變量調(diào)整回歸(Covariate-adjusted Regression, CAR)模型,即假設(shè)響應(yīng)變量和協(xié)變量都含有扭曲測量誤差,通過將線性誤差模型轉(zhuǎn)換成變系數(shù)模型,并結(jié)合分箱法給出了對未知參數(shù)的估計(jì)。Cui等[10]提出一種非參數(shù)誤差回歸模型的一般估計(jì)方法,該方法通過核估計(jì)得到誤差函數(shù)的估計(jì)量并以此計(jì)算受污染變量的校正值,然后根據(jù)校正后的變量對目標(biāo)參數(shù)進(jìn)行估計(jì)。Delaigle[11]等進(jìn)一步討論了在不同假設(shè)條件下非參數(shù)誤差回歸模型的估計(jì)問題,在弱化對未知變量或扭曲函數(shù)的假設(shè)后,提出了更一般的估計(jì)方法,并且建立了相應(yīng)估計(jì)量的漸近性質(zhì)。此外,Qian和Huang[12]研究了含扭曲測量誤差的部分非線性變系數(shù)模型的統(tǒng)計(jì)推斷問題。Dai和Huang[13]將協(xié)變量含扭曲測量誤差的情形推廣到部分非線性變系數(shù)模型。

      對于糖尿病數(shù)據(jù)集,根據(jù)數(shù)據(jù)本身的特點(diǎn),利用單指標(biāo)部分含扭曲測量誤差的PVCSIMs模型進(jìn)行擬合。該模型具有復(fù)雜的結(jié)構(gòu),可以靈活地?cái)M合變量之間的關(guān)系。進(jìn)一步考慮了測量誤差的存在,使得模型更加符合實(shí)際情形,可以更好地挖掘變量之間潛在的聯(lián)系。模型的估計(jì)方法主要參考Cui等[10]和Huang[6]中的思想。

      1 模型建立

      含有扭曲測量誤差的部分變系數(shù)單指標(biāo)模型具有如下形式:

      (2)

      (1) ‖β0‖=1,其中‖·‖表示Euclid模;

      (2)E|ψ(U)|=1,E|φr(U)|=1;

      (3) 模型誤差ε的方差是有限的。

      其中,r=1,2…,p。假設(shè)條件(1)保證了單指標(biāo)參數(shù)的唯一性,假設(shè)條件(2)保證了誤差函數(shù)的可識(shí)別性,假設(shè)條件(3)保證了估計(jì)量的漸近性質(zhì)。

      接下來,介紹模型(2)的估計(jì)方法。首先估計(jì)誤差函數(shù),根據(jù)Cui等[10]和Delaigle等[11]中提出的方法,結(jié)合假設(shè)條件(2)可以得到:

      因此可以用N-W核估計(jì)方法可以得到誤差函數(shù)的估計(jì)式分別為

      根據(jù)校正后的變量,可以得到模型(1)的一個(gè)近似形式

      (3)

      模型(3)的估計(jì)過程主要參考文獻(xiàn)[6]中的思想和方法,簡要表述過程如下:

      令B={β∈Rp:‖β‖=1},可以推出β0∈B。由于假設(shè)條件(1)的存在,目標(biāo)函數(shù)

      β∈B,在β0處的一階導(dǎo)數(shù)不存在,因此考慮使用Zhu和Xue[14]中的“去一分量”法得到β0的有效估計(jì)。不妨假設(shè)β的第r個(gè)分量βr>0,定義

      β(r)=(β1,β2,…,βr-1,βr+1,…βp)T

      則有

      接著,可以計(jì)算出β關(guān)于β(r)的Jacobian矩陣為

      不難推出,{ηi(β(r)),i=1,2,…,n}是相互獨(dú)立的且E(ηi(β(r)))=0。因此β(r)的經(jīng)驗(yàn)對數(shù)似然比函數(shù)可以定義為

      (4)

      接下來,只要求解函數(shù)的初始估計(jì)值即可。對于函數(shù)的初始估計(jì),考慮利用局部線性光滑方法分步求解系數(shù)函數(shù)和聯(lián)系函數(shù),具體的估計(jì)步驟如下:首先假設(shè)參數(shù)β0已知,對模型(3)的兩邊求條件期望,經(jīng)過簡單的計(jì)算可以得到:

      其中

      且有

      參考Einmahl和Mason[15]的方法,應(yīng)用N-W核估計(jì)求解兩個(gè)二元函數(shù)的估計(jì)表達(dá)式。選擇核函數(shù)K1(t,u)=K(t)·K(u)和帶寬h2(n)→0,ωj(·,·)(j=1,2)的估計(jì)量分別為

      接著,令a=(a1,…,aq)T和b=(b1,…,bq)T,在u的鄰域內(nèi)有

      通過最小化加權(quán)平方和

      可以得到系數(shù)函數(shù)θ(·)及其一階導(dǎo)數(shù)θ′(·)的初始估計(jì)量為

      其中κ(u)=diag(Kh2(U1-u),Kh2(U2-u),…,Kh2(Un-n))以及

      然后,帶入系數(shù)函數(shù)估計(jì)量到式(3)中,通過局部線性方法,類似地,可以得到聯(lián)系函數(shù)g(·)及其一階導(dǎo)數(shù)g′(·)的初始估計(jì)方程估計(jì)分別為

      以及

      2 模型擬合

      糖尿病數(shù)據(jù)集共包含442個(gè)樣本觀測值和11個(gè)變量,數(shù)據(jù)集來自Efron等[16]。Zhang等[17]利用含測量誤差的部分線性單指標(biāo)模型研究了該數(shù)據(jù)集,并且證明變量Sex和6種血清的化驗(yàn)數(shù)據(jù)與變量BMI可能存在非線性關(guān)系,受到該實(shí)驗(yàn)結(jié)果的啟發(fā),考慮用部分變系數(shù)單指標(biāo)模型重新分析該數(shù)據(jù)集,觀察變量Sex和6種血清的化驗(yàn)數(shù)據(jù)變量的系數(shù)是否受到BMI的影響。此外,考慮到病人的BMI可能與他的年齡和血壓存在關(guān)系,因此假設(shè)變量Age和BP受到BMI的污染,具體的變量意義見表1。實(shí)驗(yàn)前,對各個(gè)變量進(jìn)行了標(biāo)準(zhǔn)化處理。

      表1 糖尿病數(shù)據(jù)集變量及其含義Table 1 The variables and meanings of diabetes data set

      在非參數(shù)回歸方法中,帶寬對估計(jì)精度較大,因此使用合適的帶寬選擇方法十分重要。由于對于誤差函數(shù)的估計(jì)方法比較簡單,因此可以采用基于經(jīng)驗(yàn)的拇指規(guī)則(Rule of Thumb)來選擇帶寬。選取h1=n-1/3SE(V),其中

      而對于系數(shù)函數(shù)向量θ(·)和聯(lián)系函數(shù)g(·)的估計(jì)比較復(fù)雜,因此使用交叉驗(yàn)證法(Cross-validation)選擇最優(yōu)帶寬hcv,并令h2=hcv,h3=hcv(nlogn)-1/20。

      根據(jù)第2節(jié)的模型估計(jì)方法,本次實(shí)驗(yàn)的具體算法流程如下:

      Step2 選擇符合假設(shè)(1)的初始參數(shù)βini;

      使用模型(2)對糖尿病數(shù)據(jù)集進(jìn)行擬合,變量選擇如表1所示。首先得到的是誤差函數(shù)ψ(·)和φr(·)(r=1,2)的估計(jì)曲線,見圖1和圖2,其中圖2(a)和圖2(b)分別代表函數(shù)φ1(·)和φ2(·)的估計(jì)曲線。從估計(jì)曲線的趨勢可以看出,各條估計(jì)曲線都不是水平的,這說明變量(Y,X1,X2)與混淆因子V存在非線性的關(guān)系,這驗(yàn)證了之前的實(shí)驗(yàn)假設(shè):糖尿病患者定量測量數(shù)據(jù),Age和BP受到了混淆因子BMI的污染。

      圖1 ψ(·)的估計(jì)值Fig. 1 The estimation of ψ(·)

      (a)φ1(·) (b)φ2(·)

      (a)Z1 (b)Z2 (c)Z3

      (d)Z4 (e)Z5 (f)Z6 (g)Z7

      圖4 聯(lián)系函數(shù)g(·)的估計(jì)曲線Fig. 4 The estimation curve of contact function g(·)

      3 結(jié)束語

      對于高維數(shù)據(jù)分析,相較于傳統(tǒng)的參數(shù)模型和非參數(shù)模型,半?yún)?shù)模型不僅可以較好地?cái)M合數(shù)據(jù),還可以避免“維數(shù)災(zāi)禍”問題,因此廣泛地應(yīng)用醫(yī)藥和經(jīng)濟(jì)等領(lǐng)域。此外,在實(shí)際應(yīng)用中,由于外界因素的干擾,很難避免測量誤差的產(chǎn)生,如果忽略誤差的影響,就有可能導(dǎo)致模型擬合產(chǎn)生偏差,因此研究帶有測量誤差的模型應(yīng)用問題是比較重要的。這里,針對糖尿病數(shù)據(jù)集,應(yīng)用部分變系數(shù)單指標(biāo)模型進(jìn)行擬合,并假設(shè)變量Y和X受到混淆因子BMI的乘積污染。觀察實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),6種血清測量數(shù)據(jù)和變量Sex的系數(shù)會(huì)隨著BMI的變化而變化,并且對比帶有測量誤差和不含測量誤差兩種情形的結(jié)果發(fā)現(xiàn),糖尿病人定量測量值、Age和BP均受到BMI的污染。這些結(jié)果說明選擇單指標(biāo)部分帶有測量誤差的部分變系數(shù)單指標(biāo)模型對該數(shù)據(jù)集進(jìn)行擬合是合理的,并且相較于不含測量誤差的半?yún)?shù)模型,可以更好地挖掘數(shù)據(jù)中的信息。

      猜你喜歡
      估計(jì)量測量誤差變量
      密度測量誤差分析
      抓住不變量解題
      也談分離變量
      縱向數(shù)據(jù)下變系數(shù)測量誤差模型的漸近估計(jì)
      淺談估計(jì)量的優(yōu)良性標(biāo)準(zhǔn)
      SL(3,3n)和SU(3,3n)的第一Cartan不變量
      牽引變壓器功率測量誤差分析
      基于配網(wǎng)先驗(yàn)信息的諧波狀態(tài)估計(jì)量測點(diǎn)最優(yōu)配置
      電測與儀表(2015年6期)2015-04-09 12:00:50
      分離變量法:常見的通性通法
      IMU/GPS測量誤差對斜視條件下機(jī)載重軌干涉
      兰溪市| 张家港市| 舞钢市| 贞丰县| 濮阳县| 清远市| 江安县| 惠水县| 新干县| 塔城市| 奉贤区| 察雅县| 广平县| 铁岭县| 锦屏县| 庆安县| 思南县| 敦煌市| 泰兴市| 炉霍县| 大厂| 平定县| 永福县| 汕尾市| 花垣县| 呼伦贝尔市| 读书| 宝应县| 邵东县| 清水河县| 连江县| 甘孜| 布尔津县| 静海县| 大连市| 仙游县| 吴旗县| 米易县| 蕲春县| 崇州市| 永丰县|