• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      高維縱向數(shù)據(jù)分析中的降維方法研究

      2017-10-12 21:23:19潘青
      時代金融 2017年26期

      潘青

      【摘要】伴隨著計算機技術的不斷更新與發(fā)展,現(xiàn)實生活中收集到的數(shù)據(jù)種類已經(jīng)越來越多,數(shù)據(jù)結(jié)構(gòu)已經(jīng)越來越復雜。其中,對于高維縱向數(shù)據(jù)的分析已經(jīng)成為統(tǒng)計界的一個研究熱點。伴隨著計算機技術的不斷更新與發(fā)展,現(xiàn)實生活中收集到的數(shù)據(jù)種類已經(jīng)越來越多,數(shù)據(jù)結(jié)構(gòu)已經(jīng)越來越復雜。其中,對于高維縱向數(shù)據(jù)的分析已經(jīng)成為統(tǒng)計界的一個研究熱點。

      本文研究了高維縱向數(shù)據(jù)的研究方法及其常見處理模型。

      【關鍵詞】高維數(shù)據(jù) 縱向數(shù)據(jù) 降維方法

      一、縱向數(shù)據(jù)

      縱向數(shù)據(jù)(Longitudinal data)常出現(xiàn)在醫(yī)學,金融學,心理學,生物學等領域,在經(jīng)濟學中也稱為“面板數(shù)據(jù)”(Panel data),常發(fā)生在流行病學研究,臨床實驗,經(jīng)濟應用等背景中,是對觀測的個體在不同時間下重復觀測所得到的數(shù)據(jù),且觀測得到的數(shù)據(jù)常常帶有缺失,刪失。在實驗中,不同個體的觀察值可能是相互獨立的,也可能是相關的。所研究的響應變量觀測值隨時間變化而變化,相關的協(xié)變量也隨時間變化有一系列的觀察值。由此可知,縱向數(shù)據(jù)既包含同一時間點上不同樣本的數(shù)據(jù),也包含同一樣本在不同時間點上的觀測數(shù)據(jù)。因此,縱向數(shù)據(jù)不僅具有截面數(shù)據(jù)的特點,同時也具備了時間序列數(shù)據(jù)的特征。縱向數(shù)據(jù)的優(yōu)點是可以區(qū)分個體間的群體效應和個體內(nèi)部的組內(nèi)效應,可以有效地描述響應變量和協(xié)變量之間的關系。

      這樣的數(shù)據(jù)常出現(xiàn)在癌癥復發(fā)、縱向醫(yī)療費用、艾滋病感染等事件中??v向數(shù)據(jù)的研究不僅可以幫助我們了解響應變量與相關協(xié)變量之間隨時間變化的關系,還能幫助我們探索響應變量隨時間的動態(tài)變化情況??v向數(shù)據(jù)分析的第一個難點是如何處理數(shù)據(jù)間的相關性。

      二、高維數(shù)據(jù)

      隨著科學技術的不斷發(fā)展,我們收集到的數(shù)據(jù)結(jié)構(gòu)越來越復雜,比如說氣象學。為了更準確的預測天氣情況,描述氣象特征的指標也越來越多,例如:溫度,濕度,風力,氣壓,降雨量等等,這種用多個變量描述某一現(xiàn)象的數(shù)據(jù),就是高維數(shù)據(jù)。我們發(fā)現(xiàn),隨著數(shù)據(jù)維數(shù)的增多,數(shù)據(jù)呈現(xiàn)出客觀現(xiàn)象的信息將更加豐富與細致,與此同時,也會給數(shù)據(jù)的處理帶來一些列的困難。這也是高維數(shù)據(jù)兩個明顯的特點:維數(shù)福音(Blessings of Dimensionality)和維數(shù)災難(Curses of Dimensionality)。維數(shù)福音是指隨著維數(shù)的提升,數(shù)據(jù)會提供更加豐富、細致的信息。所謂“維數(shù)災難”是在我們獲取的數(shù)據(jù)無法最簡化的情況下,當我們對數(shù)據(jù)進行特征提取或者擬合變量時,所需原始數(shù)據(jù)量會對著協(xié)變量的增加而呈指數(shù)級別的增長。這種情況下處理數(shù)據(jù)會特別困難。如何從眾多復雜影響因素中提取最關鍵的影響因子,找出其最本質(zhì)的內(nèi)在規(guī)律,成為處理高維數(shù)據(jù)的關鍵。也就是尋找高維數(shù)據(jù)在低維空間的有效表達,同時又盡可能有效的挖掘出高維原始數(shù)據(jù)背后的自身內(nèi)在結(jié)構(gòu),從而準確找出高維原始數(shù)據(jù)的有效表達的低維結(jié)構(gòu)。

      分析縱向數(shù)據(jù)的第二個難點,是在考慮數(shù)據(jù)相依性的前提下,改進和創(chuàng)新已有的統(tǒng)計理論與方法,使其可以處理高維縱向數(shù)據(jù)。

      三、縱向數(shù)據(jù)模型

      對于解決縱向數(shù)據(jù)的第一個難點,在近幾十年的統(tǒng)計研究中,學者們提出了許多不同的解決方案,已有成熟的統(tǒng)計理論與方法。早期主要的研究方法是參數(shù)回歸分析方法,比如誤差項為時間序列的多元線性模型以及生長曲線模型。誤差項往往假定為多元正態(tài)分布的一般線性模型。其中邊際模型和混合效應模型的應用最為廣泛。由于數(shù)據(jù)的隨機誤差項結(jié)構(gòu)復雜,不可避免會遇到維數(shù)災難的問題。而收集到的縱向數(shù)據(jù)中又含有缺失、刪失等問題,所以對于數(shù)據(jù)處理又造成進一步的困難。

      上個世紀80年代,半?yún)?shù)回歸模型得到發(fā)展,這是一種重要的統(tǒng)計模型,該模型不僅有參數(shù)部分,還有非參數(shù)部分,所以同時具備了參數(shù)模型解釋性強與非參數(shù)模型適應性強的優(yōu)點。該模型在分析數(shù)據(jù)時,更接近真實模型,可以充分利用數(shù)據(jù)所提供的信息,因此廣受研究人員的喜愛。

      上個世紀90年代,縱向數(shù)據(jù)的非參數(shù)回歸方法得到了廣泛的發(fā)展,比較常見的方法有懲罰樣條法、回歸樣條法、光滑樣條法、局部多項式核光滑法等等。

      以上的方法理論都是基于協(xié)變量是低維時考慮的,對于高維的協(xié)變量不再適用。因此,對于解決高維縱向數(shù)據(jù)的分析,只有先通過數(shù)據(jù)降維,將協(xié)變量先降至低維,傳統(tǒng)的統(tǒng)計模型才得以使用。

      四、數(shù)據(jù)降維

      (一)數(shù)據(jù)降維的定義

      在高維空間D中,樣本容量為n的原始數(shù)據(jù)X,記為X={xi},i=1,2,…,n,在d維空間中樣本容量為n的數(shù)據(jù)集Y={yi},i=1,2,…,n,那么我們可以通過映射f:X→Y,x→y=f(x),其中D為高維空間中的原始數(shù)集的維數(shù),d代表著低維空間中數(shù)據(jù)的維數(shù),且d≤D,于是通過映射,x是y的高維空間,y是x的高維表示。從本質(zhì)上講,降維就是尋找投影,即高維空間到低維空間的映射,但是在不同的領域內(nèi),專業(yè)術語會有所相差別:

      ·在統(tǒng)計學中,降維與多元密度估計、回歸、平滑技術有關

      ·在信息論中,降維是數(shù)據(jù)壓縮和編碼

      ·在模式識別中,降維是特征提取

      因此,數(shù)據(jù)降維不僅在統(tǒng)計學中有重要表現(xiàn),在其他領域也有重要應用。

      (二)數(shù)據(jù)降維的分類

      根據(jù)降維的側(cè)重點不同,可以將降維分為硬降維問題,軟降維問題,可視化問題。

      根據(jù)時間變量分類,可將降維分為靜態(tài)降維和依據(jù)時間的降維。

      根據(jù)降維映射形式的不同,可以將降維分為線性降維與非線性降維。對于線性降維,存在一個實數(shù)集上的d維投影矩陣β∈Rn×d,將高維空間中的原始數(shù)據(jù)投影到低維空間中,同時有Y=βTX。對于非線性降維,則不存在這樣的映射。

      線性降維方法主要有主成分分析(Principle Component Analysis,PCA)、投影尋蹤(Projection Pursuit,PP)、線性判決分析(Linear Discriminant Analysis,LDA)、多尺度變換(MultidimensionalScaling,MDS)等,這些方法適用于處理具有線性結(jié)構(gòu)的數(shù)據(jù)集,計算簡單,效率高效,是研究人員廣泛使用的方法。endprint

      非線性降維方法有局部線性嵌入(Local Linear Embedding,LLE),拉普拉斯特征映射(LaplacianEigenmaps,LE),局部切空間排列(Local Tangent Space Alignment,LTSA),黑塞特征映射(Hessian Eigenmaps,HE)等基于流行學習的算法。與流行學習所不同的是另一種非線性降維方法—核方法。其主要思想是將原始數(shù)據(jù)空間中的數(shù)據(jù)通過隱式的映射到更高維度的特征空間中,然后再利用線性降維方法處理。主要有核主成分分析(Kernel Principle Component Analysis,KPCA),核線性判決分析(Kernel Linear Discriminant Analysis,KLDA),核獨立成分分析(Kernel Independent Component Analysis,KICA)等方法。

      (三)數(shù)據(jù)降維的應用

      對原始空間的數(shù)據(jù)進行數(shù)據(jù)降維可以有效的解決“維數(shù)災難”的問題,因此數(shù)據(jù)降維技術廣泛應用于數(shù)據(jù)挖掘、模式識別、機器學習等領域。例如:

      例1 生物基因數(shù)據(jù) DNA芯片技術自動獲取DNA微陣列數(shù)據(jù),每一個微陣列都對應著所采集到的一個維度達上萬維的樣本為了提高結(jié)果的準確性,必須選擇足夠多的基因來參與分析,于是造成“維數(shù)災難”,此時必須使用數(shù)據(jù)降維。

      例2 數(shù)字圖像數(shù)據(jù) 在數(shù)字圖像處理領域中,處理的圖像數(shù)據(jù)一般情況下為m×n大小的圖像。在整個圖像空間中,一幅圖像對應著只是整個圖像空間中的一個像素點,該點的維度為m×n。因此當m,n逐漸的增大的時候,圖像空間中的像素點所對應的維度就會非常高。所以在圖像數(shù)據(jù)空間的數(shù)據(jù)都是高維數(shù)據(jù),處理數(shù)據(jù)具有一定困難。

      例3 艾滋病群組研究 一組來自于多中心愛滋病群組研究的數(shù)據(jù),該數(shù)據(jù)記錄了1984年至1991年,觀測到的283位HIV呈陽性的同性戀病人每半年進行的定期檢查,記錄他們感染的情況。對于這組數(shù)據(jù),響應變量是HIV感染后,病人血液內(nèi)CD4所含細胞的比例,協(xié)變量是病人的年齡、吸煙狀況、HIV感染前細胞CD4的比例及其交互作用。這是一組高維縱向數(shù)據(jù),為了找出真正對HIV感染后血液內(nèi)CD4細胞比例的變化有影響的協(xié)變量,必須使用降維技術對協(xié)變量進行降維,然后使用統(tǒng)計模型。

      例4 交叉試驗 對一種用于減輕原發(fā)性痛經(jīng)藥物的一組三階段交叉試驗的研究試驗中,研究人員將86位女性病人隨機的分為六組,依照不同的次序,給病人服用安慰劑、低劑量止痛藥和高劑量止痛藥,并對各個病人在每個階段性治療結(jié)束后的病情進行評估。在該組數(shù)據(jù)中,響應變量是一個變量,記錄病人在當前階段性治療結(jié)束后疼痛是否緩解表示無緩解,表示有所緩解,相對應的協(xié)變量是六個變量,記錄病人當前所在的治療階段、服用的藥物和前一階段所服用的藥物。這是一組高維縱向數(shù)據(jù),我們要先對協(xié)變量進行降維,然后使用統(tǒng)計模型。

      五、總結(jié)

      本文通過分析縱向數(shù)據(jù)與高維數(shù)據(jù)的處理難點,列舉了一系列的數(shù)據(jù)降維方法,論述了通過數(shù)據(jù)降維后,高維縱向數(shù)據(jù)可適應縱向數(shù)據(jù)的統(tǒng)計模型,并通過舉例說明對于數(shù)據(jù)降維技術的應用領域的廣泛性。

      參考文獻

      [1]譚璐.高維數(shù)據(jù)的降維理論及應用[D].長沙:國防科技大學,2005.

      [2]劉卓.高維數(shù)據(jù)分析中的降維方法研究[D].長沙:國防科技大學,2002.

      [3]許佩蓉.高維縱向數(shù)據(jù)中邊際模型和混合效應模型的若干研究[D].上海:華東師范大學,2013.

      [4]劉建環(huán).面向高維數(shù)據(jù)降維與分類的深度模型構(gòu)建方法研究[D].重慶:重慶大學,2016.

      [5]田瑞琴.縱向數(shù)據(jù)下半?yún)?shù)回歸模型的統(tǒng)計推斷[D].北京:北京工業(yè)大學,2014.

      [6]嚴國義.縱向數(shù)據(jù)與生存數(shù)據(jù)的半?yún)?shù)聯(lián)合模型研究[D].武漢:武漢大學,2013.endprint

      阳谷县| 绍兴市| 陆丰市| 甘德县| 尼勒克县| 天等县| 石林| 石城县| 东乡| 穆棱市| 治县。| 独山县| 新乐市| 铅山县| 宁强县| 南郑县| 万安县| 磴口县| 南丹县| 仲巴县| 林西县| 厦门市| 扬中市| 楚雄市| 崇义县| 游戏| 福安市| 岳阳市| 缙云县| 吉水县| 崇义县| 河北区| 邮箱| 松溪县| 衡东县| 辉县市| 昂仁县| 玉屏| 当阳市| 伊通| 长海县|