• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于阿爾茨海默病的基因表達數(shù)據(jù)改進的一維聚類方法

      2015-12-16 07:44:44付如意彭志紅胡本瓊龐朝陽
      關(guān)鍵詞:阿爾茨海默曲率投影

      黃 靜, 付如意, 彭志紅, 胡本瓊, 龐朝陽

      (1.四川師范大學(xué)數(shù)學(xué)與軟件科學(xué)學(xué)院,四川成都610066;2.解放軍四五二醫(yī)院肛腸科,四川成都610021;3.成都理工大學(xué)管理科學(xué)學(xué)院,四川成都610059;4.四川師范大學(xué)計算機科學(xué)學(xué)院,四川成都610066;5.四川師范大學(xué)可視化計算與虛擬現(xiàn)實四川省重點實驗室,四川成都610066)

      阿爾茨海默癥,即老年癡呆癥,是一類神經(jīng)退行性疾病,已成為繼心血管疾病、惡性腫瘤、腦卒中之后老年人的第4大“健康殺手”[1].目前,世界上并沒有治療老年癡呆癥的有效辦法.隨著基因芯片技術(shù)[2-5]的迅速發(fā)展,2003年與阿爾茨海默病相關(guān)的基因表達數(shù)據(jù)能夠在公共生物信息數(shù)據(jù)庫中獲?。?].2009 年 W.Kong 等[7]將獨立主成分分析(ICA)方法應(yīng)用于阿爾茨海默病的候選基因的識別中.2010年龐朝陽等將聚類分析方法應(yīng)用到阿爾茨海默病的致病基因的識別中[8].為了高效快捷地挖掘基因表達數(shù)據(jù),簡捷的一維聚類方法在一些情形下能夠被應(yīng)用.但是它需要事先主觀的確定出分類數(shù)目K.因此,本文基于擬合的思想在一維聚類分析方法的基礎(chǔ)上提出了將曲率最大點處的距離作為分類判據(jù),從而實現(xiàn)無監(jiān)督的一維聚類分析.

      1 預(yù)備知識

      1.1 主成分分析方法 主成分分析(PCA)是一種對高維數(shù)據(jù)進行分析、簡化的技術(shù).這種方法本質(zhì)上是找出高維數(shù)據(jù)中最“主要”的元素和結(jié)構(gòu),去除噪音和冗余,將原有數(shù)據(jù)降維,把多指標轉(zhuǎn)化為少數(shù)幾個綜合指標,揭示隱藏在復(fù)雜數(shù)據(jù)背后的簡單結(jié)構(gòu)[1].

      1.2 光滑曲線的曲率 曲率[1]是平面曲線彎曲程度的直觀描述.現(xiàn)給出光滑曲線的曲率的數(shù)學(xué)語言描述.假設(shè)光滑曲線C為y=f(x),則該曲線上任一點P的曲率κ可表示為一個指向該圓圓心的大小等于密切圓半徑的倒數(shù)的向量,如圖1所示,即

      1.3 最小二乘估計 最小二乘法(又稱最小平方法)是一種數(shù)學(xué)優(yōu)化技術(shù).目標是最小化誤差的平方和尋找數(shù)據(jù)的最佳逼近函數(shù).利用最小二乘法可以簡便地求得未知的數(shù)據(jù),并使得這些求得的數(shù)據(jù)與實際數(shù)據(jù)之間誤差的平方和為最小.通常,最小二乘法用于曲線擬合[1,9-10].

      2 數(shù)據(jù)的來源與特征

      本文從美國國家生物技術(shù)信息中心(NCBI)網(wǎng)站獲取到了關(guān)于阿爾茨海默病患者的基因綜合表達數(shù)據(jù)[6].該數(shù)據(jù)是從正常、輕度、中度以及重度4種程度的患者的海馬體組織中利用基因芯片技術(shù)提取出的人體的22 283個基因的表達水平,其數(shù)據(jù)格式如表1,其中數(shù)值已經(jīng)過對數(shù)化平滑處理.

      表1 基因表達水平數(shù)據(jù)表(以正常組為例)Table 1 Organization of gene expression data(as an example of the control group)

      由上述數(shù)據(jù)可以得出兩點信息:一是表1中的每列數(shù)據(jù)對應(yīng)于一個給定的實驗條件(或人體組織);二是由于每一行對應(yīng)于同一個基因的表達水平,則列數(shù)據(jù)之間必然存在相關(guān)性.于是可以考察阿爾茨海默病同一程度的任意2組患者間的基因表達水平分布情況.

      接下來以表1的數(shù)據(jù)為例進行具體說明.

      第一步,標準化處理表1的各列數(shù)據(jù)Xi=[xi1,xi2,…,xi22283](i=1,2,…,9).則

      其中,

      第二步,由此得到任意兩列形成的基因表達水平的二維分布數(shù)據(jù)列,如圖2 所示.令[Yi,Yj](i,j=1,2,…,9)且 i≠j.

      通過觀察形如圖2所示的4種程度的基因表達水平的二維分布圖,可以發(fā)現(xiàn)所有的點集中在一條直線的周圍.這表明,各基因在不同條件下呈線性相關(guān)性.從而通過主成分分析方法將數(shù)據(jù)進行降維處理,得到一維投影點數(shù)據(jù),記為集合

      進一步地,得到了在一維投影子空間中相鄰一維投影點間的距離,記為集合

      Q={di=pi+1-pi|i=1,2,…,22 283},并做出統(tǒng)計直方圖,其中橫軸表示相鄰?fù)队包c間的距離,縱軸表示距離所對應(yīng)的頻數(shù),如圖3所示.

      由圖3得知相鄰一維投影點間的距離主要都分布在0.05以內(nèi),呈現(xiàn)出聚類特征.基于此,考慮對一維投影點進行聚類處理.

      3 改進的一維聚類方法

      目前通用的一維聚類方法需要事先確定出類別數(shù)目K的大致范圍.在數(shù)據(jù)分析的實際處理過程中,這往往存在著很大的主觀因素,甚至分析者根本無法合理地確定分類數(shù)目.通過處理阿爾茨海默病的基因數(shù)據(jù),本文提出一種改進的無監(jiān)督一維聚類方法:將相鄰一維投影點間的距離統(tǒng)計數(shù)目的趨勢線的曲率最大點作為分類判據(jù)δ進行無監(jiān)督的一維數(shù)據(jù)聚類處理.接下來本文將具體描述該方法的分類判據(jù)的確定過程.

      首先給出分類判據(jù)δ的具體意義.對于任意給定的2個類 C1和 C2,如果 p1∈C1且 p2∈C2,則‖p1-p2‖≥δ.如果 p1,p2∈Ci(i=1,2),則‖p1-p2‖ <δ.

      從而進一步定義下面2個概念:

      定義1 最小類間距離,即2個類簇間的距離

      定義2 最大類內(nèi)距離,即同一個類內(nèi),一個點和它的相鄰點的距離

      Dmax=sup{‖pi-pj‖ |pi,j∈ Ck,Ck? P}.因此,顯然有 Dmax≤δ≤Gmin,即這樣的“δ”作為聚類投影點的分類判據(jù).其次,通過最小二乘估計方法得到的光滑曲線必然存在一點A,使得在A點左側(cè)的區(qū)域?qū)儆陬悆?nèi)距離集合,并且在A點右側(cè)的區(qū)域?qū)儆陬愰g距離集合.該曲線的曲率最大點處的距離介于類內(nèi)距離與類間距離之間,即滿足分類判據(jù)的條件.因此曲率最大點 處的距離將作為分類判據(jù)“δ”的取值是合理的.

      4 實驗與結(jié)果

      結(jié)合阿爾茨海默病基因數(shù)據(jù),將具體給出分類判據(jù)δ的計算過程.對集合Q進行統(tǒng)計計數(shù)得到如圖3所示的直方圖.很清楚地看到相鄰?fù)队包c間的距離的頻數(shù)隨著距離的增大而逐漸遞減并呈現(xiàn)出指數(shù)曲線的趨勢.于是通過最小二乘估計方法擬合得到指數(shù)曲線F(x)=1.52e1121x(其擬合優(yōu)度R=0.996),如圖4所示.

      根據(jù)光滑曲線的曲率表示形式,曲線的曲率

      由極值的必要條件[11]有 G'(δ)=0,解得 δ=0.006 9.此外,進一步作出指數(shù)曲線的曲率的圖像以驗證結(jié)果是正確的,如圖5所示.

      5 結(jié)論

      目前,聚類分析統(tǒng)計方法[12-16]已經(jīng)被應(yīng)用到阿爾茨海默病的致病基因的識別過程中.通過分析阿爾茨海默病的基因表達數(shù)據(jù),本文提出了將曲率最大點作為分類判據(jù)的一種無監(jiān)督的一維聚類方法.并且應(yīng)用阿爾茨海默病的基因表達數(shù)據(jù)計算出了其分類判據(jù)δ.

      [1]維基媒體基金會.維基百科[EB/OL].http://zh.wikipedia.org/,2014.

      [2]Yang J H.基因表達水平估計策略和方法[EB/OL].http://www.plob.org/2012/10/01/3887.html,2014.

      [3]Zhao Y B.RPKM 簡介[EB/OL].http://www.plob.org/2011/10/24/294.html,2014.

      [4]李瑤.基因芯片技術(shù):解碼生命[M].北京:化學(xué)工業(yè)出版社,2004:77-156.

      [5]朱明華.組織微陣列及其在腫瘤病理研究中的應(yīng)用[J].中華病理學(xué)雜志,2002,31(1):72-74.

      [6]Blalock E M,Geddes J W,Chen K C,et al.Incipient Alzheimer's disease:Microarray correlation analyses reveal major tran-scriptional and tumor suppressor responses[J].PNAS,2004,101:2173-2178.

      [7]Kong W,Mou X Y,Yang B.Study DNA microarray gene expression data of Alzheimer's disease by independent component analysis[C]//Bioinformatics,Systems Biology and Intelligent Computing.Inter Joint Conf IEEE,2009:44-47.

      [8]Pang C Y,Hu W,Hu B Q,et al.A special local clustering algorithm for identifying the genes associated with Alzheimer's disease[J].IEEE Trans Nanobioscience,2010,9(1):44-50.

      [9]馬昌鳳,林偉川.現(xiàn)代數(shù)值計算方法[M].北京:科學(xué)出版社,2008:179-193.

      [10]茆詩松,王靜龍,濮曉龍.高等數(shù)理統(tǒng)計[M].2版.北京:高等教育出版社,2006:128-135.

      [11]華東師范大學(xué)數(shù)學(xué)系.數(shù)學(xué)分析上冊[M].3版.北京:高等教育出版社,2001:163-165.

      [12][美]Han J W,Kamber M,Pei J.數(shù)據(jù)挖掘:概念與技術(shù)[M].3版.范明,孟小峰,譯.北京:機械工業(yè)出版社,2012:327-543.

      [13]胡本瓊,張先迪,龐朝陽.利用圖論設(shè)計圖像壓縮中的向量量化聚類算法[J].四川師范大學(xué)學(xué)報:自然科學(xué)版,2005,28(3):376-378.

      [14]王開軍,李曉.基于有效性指標的聚類算法選擇[J].四川師范大學(xué)學(xué)報:自然科學(xué)版,2011,34(6):915-918.

      [15]莊劉,曾艷.基于模糊C-均值聚類的最優(yōu)量化器設(shè)計[J].四川師范大學(xué)學(xué)報:自然科學(xué)版,2010,33(4):559-562.

      [16]宋麗紅.K-均值聚類的Matlab仿真設(shè)計[J].實驗技術(shù)與管理,2010,27(10):101-103.

      猜你喜歡
      阿爾茨海默曲率投影
      大曲率沉管安裝關(guān)鍵技術(shù)研究
      阿爾茨海默病的預(yù)防(下)
      中老年保健(2022年2期)2022-08-24 03:21:24
      一類雙曲平均曲率流的對稱與整體解
      阿爾茨海默病的預(yù)防(上)
      中老年保健(2022年1期)2022-08-17 06:14:36
      解變分不等式的一種二次投影算法
      基于最大相關(guān)熵的簇稀疏仿射投影算法
      半正迷向曲率的四維Shrinking Gradient Ricci Solitons
      找投影
      找投影
      睡眠不當(dāng)會增加阿爾茨海默風(fēng)險
      奧秘(2018年9期)2018-09-25 03:49:56
      吉水县| 蒙阴县| 韶山市| 河南省| 浦北县| 阳春市| 宁都县| 辽宁省| 汉中市| 新田县| 翼城县| 伊宁县| 太和县| 宣城市| 台湾省| 吉水县| 瑞昌市| 峨边| 涡阳县| 思南县| 迁安市| 南城县| 兰州市| 诸暨市| 那坡县| 板桥市| 南召县| 高台县| 孝昌县| 永丰县| 元氏县| 延寿县| 荔浦县| 通榆县| 仁寿县| 江门市| 锡林郭勒盟| 巴彦淖尔市| 体育| 兴化市| 辰溪县|