• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于鄰域粗糙集的莆田地區(qū)肺癌特征選擇

      2021-09-10 17:38:56沈林陳金清胡建雄蔡榮貴
      關(guān)鍵詞:特征選擇肺癌

      沈林 陳金清 胡建雄 蔡榮貴

      0? ? ? 引言

      肺癌是我國發(fā)病率和死亡率最高的惡性腫瘤之一,臨床上在發(fā)現(xiàn)肺部結(jié)節(jié)病灶后將其切除是預(yù)防其發(fā)展為惡性腫瘤的常見治療手段。醫(yī)院積累了大量的臨床數(shù)據(jù),通過對這些臨床數(shù)據(jù)的分析,可以更好地幫助醫(yī)生判斷哪些病人需要手術(shù)。但臨床數(shù)據(jù)規(guī)模龐大、維度高、不完備,如果直接處理,必然陷入“維度災(zāi)難”。所以,先對臨床數(shù)據(jù)進(jìn)行特征選擇是必要的。本文提出一種基于變精度鄰域粗糙集的特征選擇算法,并對從醫(yī)院采集的病例進(jìn)行特征選擇,然后用多種機(jī)器學(xué)習(xí)的方法驗(yàn)證特征選擇的有效性。

      1? ? ?鄰域粗糙集和變精度鄰域粗糙集

      粗糙集理論(Rough Sets,RS)是Z.Pawlak[1]在上世紀(jì)90年代初提出的理論,通過上、下近似集,將知識分為模糊的知識和精確的知識,這使得RS理論具備從不確定、不一致、不完備的知識中,找出潛藏知識的能力。隨后,為了解決經(jīng)典粗糙集抗干擾能力差的問題,W.Ziarko[2]提出了變精度粗糙集(VPRS);為了解決經(jīng)典粗糙集無法直接處理連續(xù)數(shù)據(jù)的問題,HU等[3]提出了鄰域粗糙集(NBRS),用鄰域關(guān)系代替等價(jià)關(guān)系處理連續(xù)型數(shù)據(jù),并對變精度鄰域粗糙集進(jìn)行了研究。

      定義1? ?一個決策系統(tǒng)可以描述為[DS=(U,C?D)],其中[U]是非空樣本集[{x1,x2,…,xn}],[C]是特征集合,[D]是決策類。則樣本[xi]的鄰域關(guān)系表示為[δA(xi)={xjΔA(xi,xj)≤δ,xj∈U,A?C}],其中[δ]是鄰域半徑,[ΔA(xi,xj)]表示樣本[xi]和[xj]的距離,最常用的是歐式距離。對于給定的集合[X?U],鄰域粗糙集的上下近似集定義為:

      [RA(X)={xiδA(xi)?X≠φ,xi∈U}RA(X)={xiδA(xi)?X,xi∈U}] (1)

      若[δA(xi)?Dj],則認(rèn)為[xi∈Dj]。由于定義1對鄰域關(guān)系的定義過于嚴(yán)格,易受干擾,所以在使用時(shí)可以引入錯誤率[β(0<β<0.5)],若[δA(xi)]中不屬于[Dj]的樣本比例小于[β],就認(rèn)為[xi∈Dj],這就得到了變精度鄰域粗糙集。

      定義2? ?變精度鄰域粗糙集的上下近似集定義為:

      [RβA(X)={xi1-(δA(xi)?X)/δA(xi)≤1-β,xi∈U}RβA(X)={xi1-(δA(xi)?X)/δA(xi)≤β,xi∈U}] (2)

      定義3? ?決策類[D]的下近似集又被稱為鄰域粗糙集的正域,表示為:

      [POSA=Xi∈UDRA(Xi)] (3)

      粗糙集的正域的意義是特征集[A]下決策系統(tǒng)[DS]包含的所有精確的知識。

      定義4? ?決策系統(tǒng)[DS]在特征集[A]下的依賴度定義為:

      [r(DS)=POSAU] (4)

      定義5? ?對于任意的特征集[A?C],若是有[POSA=POSC],則稱特征集[A]是[C]的一個約簡。

      定義6? ?決策系統(tǒng)[DS]的變精度鄰域下近似分布的定義為:

      [DP(DS,β)={RβC(Y1),RβC(Y2),…,RβC(Yn)}] (5)

      2? ? ?基于辨識矩陣的變精度鄰域粗糙集特征選擇

      2.1? ?辨識矩陣

      在用粗糙集理論處理特征選擇問題時(shí),主要有基于依賴度和基于辨識矩陣兩種方法:基于依賴度的特征選擇需要反復(fù)計(jì)算鄰域關(guān)系和依賴度,時(shí)間復(fù)雜度較高;基于辯識矩陣則是通過構(gòu)建一個矩陣,記錄每個樣本對在各個特征下的領(lǐng)域關(guān)系,來尋找最小約簡,時(shí)間復(fù)雜度大幅降低,但空間復(fù)雜度較高。由于傳統(tǒng)的辨識矩陣針對的是鄰域粗糙集,無法應(yīng)用于變精度鄰域粗糙集,本文采用了改進(jìn)的辨識矩陣,定義如下[4]:

      [Mi,j=2xj∈δa(xi)∧Dxi≠Dxj1xj∈δa(xi)∧Dxi=Dxj0其他] (6)

      公式(6)所列矩陣,每一行為一個樣本對[xi,xj],每一列對應(yīng)一個特征,整個矩陣有[m×(m-1)/2]行、[C]列,其中[m]為樣本個數(shù),[C]為條件特征?!?”表示樣本[xi]和[xj]是鄰域關(guān)系但決策類不一致,“1”表示是鄰域關(guān)系且決策類一致;“0”表示非鄰域關(guān)系。很明顯,對于任意一行的樣本對[xi,xj],只可能由["0","1"]或者["0","2"]組成,不會同時(shí)出現(xiàn)“1”和“2”。若要計(jì)算樣本對[xi,xj]在特征集[a1,a2]下是否為鄰域關(guān)系,僅需計(jì)算[M(i,j)a1&M(i,j)a2]是否為0即可。

      2.2? ?算法步驟[4]

      輸入:決策系統(tǒng)[DS=(U,C?D)],錯誤率[β]。

      輸出:約簡后的特征集。

      (1)計(jì)算各個特征的鄰域半徑;

      (2)根據(jù)鄰域半徑,按照公式(6)計(jì)算[DS]的辨識矩陣;

      (3)根據(jù)定義6計(jì)算[DS]在[C]下的下近似分布;

      (4)建立一特征隊(duì)列,將所有屬性依次和特征隊(duì)列組合,找出組合后錯誤率最小的特征,并將該特征放入特征隊(duì)列;

      (5)檢查當(dāng)前特征隊(duì)列的下近似分布是否和(3)一致,如果是則輸出特征隊(duì)列并結(jié)束算法,如果不是則重復(fù)步驟(4),直到滿足條件。

      步驟(4)由于要反復(fù)執(zhí)行,耗時(shí)最多,時(shí)間復(fù)雜度為[Om2*n*l],[m]為[U]中樣本個數(shù),[n]為輸入時(shí)條件特征個數(shù),[l]為輸出時(shí)特征隊(duì)列中的特征個數(shù)。

      3? ? ?實(shí)驗(yàn)分析

      3.1? ?數(shù)據(jù)說明

      本文采用的數(shù)據(jù)來自莆田學(xué)院附屬醫(yī)院2019年8月至2020年4月采集的272位患者。采集的數(shù)據(jù)集共包含61個條件特征和1個決策屬性[5-7]。由于以下原因,在和醫(yī)生探討后刪除了部分記錄:①部分特征有大量空缺,難以用常見的不完備數(shù)據(jù)處理方法進(jìn)行處理;②部分特征下所有患者數(shù)據(jù)一致,無法區(qū)分決策屬性;③部分患者的部分特征大量缺失,影響結(jié)果。

      最后剩余202位患者、37個條件特征和1個決策屬性(良性/惡性),37個條件特征如表1所示。

      在202名病患中,男性病患107人,女性病患95人,年齡分布如表2所示。

      3.2? ?鄰域半徑的選擇

      采集到的數(shù)據(jù)既有離散型數(shù)據(jù),如性別、是否胸痛等,也有連續(xù)型數(shù)據(jù),如年齡、CEA等,且不同數(shù)據(jù)的取值范圍不同。為了避免取值范圍不同帶來的影響,每個特征都采用離散歸一法將該特征的所有數(shù)據(jù)歸一到[0,1]的區(qū)間內(nèi),公式如下:

      [f(xi)=xi-xminxmax-xmin] (7)

      由于不同的特征具有不同的分布特性,所以要為不同特征設(shè)置不同的鄰域半徑,本文采用標(biāo)準(zhǔn)差[σ]作為鄰域半徑的基準(zhǔn),0.5倍標(biāo)準(zhǔn)差就記作0.5[σ]。采用標(biāo)準(zhǔn)差,可以避免靠經(jīng)驗(yàn)劃分半徑帶來的問題。

      3.3? ?算法運(yùn)行結(jié)果

      表3列出了在錯誤率0.5下,本文算法在不同鄰域半徑下選擇出的候選特征組。

      圖1和圖2列出了表3的5個特征集在3NN、Bagging、J48、JRIP、NaiveBayes、RandomForest算法下的Accuracy和Precision,采用十折交叉驗(yàn)證。

      表4列出了表3的候選特征組在3NN、Bagging、J48、JRIP、NaiveBayes、RandomForest算法下Accuracy、Precision、ROC、Kappa statistic的平均值,并列出了全特征(ALL)的情況對比。

      從表4可以看出,序號FS2特征集在Precision.avg、ROC.avg、Kappa statistic.avg上優(yōu)于其他特征集,在Accuracy.avg同其他特征集大致相當(dāng),所以特征集FS2(年齡、咳嗽咳痰、最大大小、累及部位數(shù)、NSE、性別、邊緣是否光滑、長寬比)是更合理的選擇。并同時(shí)發(fā)現(xiàn),本文算法在不同鄰域半徑下找出的不同特征,除了FS1外,大多數(shù)效果都比全特征(ALL)時(shí)的效果好。

      為了更好地檢驗(yàn)本文算法的效果,表5列出了本文算法同經(jīng)典鄰域粗糙集NBRS的對比,測試方法同表4。從中可以發(fā)現(xiàn),在相同鄰域半徑下,除0.7[σ]半徑外,本文算法在Accuracy.avg和Precision.avg上均好于NBRS。同時(shí)發(fā)現(xiàn),除0.4[σ]半徑外,本文算法在ROC.avg和Kappa statistic.avg上均差于NBRS。分析發(fā)現(xiàn),相對于NBRS,本文算法更傾向于將良性患者判定為惡性患者,這可能是因?yàn)椴杉降臄?shù)據(jù)來自于醫(yī)生認(rèn)為惡性風(fēng)險(xiǎn)高的病患??紤]到惡性患者被錯放的風(fēng)險(xiǎn),可以認(rèn)為本文算法相對于NBRS,更適合應(yīng)用于對惡性患者的判定。

      同時(shí),本文算法在0.4[σ]半徑下的表現(xiàn),和NBRS在0.7[σ]半徑下的表現(xiàn)大致相當(dāng),但特征個數(shù)少2個,說明本文算法可以排除更多的冗余特征,選出更關(guān)鍵的特征組合,并且更適合細(xì)粒度的知識場景。

      4? ? ? 總結(jié)

      本文提出了一種在高維的肺部結(jié)節(jié)灶臨床數(shù)據(jù)中找出和肺癌相關(guān)的關(guān)鍵特征組合的算法,并用于分析莆田學(xué)院附屬醫(yī)院采集的臨床數(shù)據(jù),利用3NN、Bagging、J48、JRIP、NaiveBayes、RandomForest算法對選出的特征組合進(jìn)行驗(yàn)證,證明了本方法的有效性。

      [參考文獻(xiàn)]

      [1]Pawlak Z. Rough—Sets: Theoretical Aspects of Reasoning About Data[M]. Dordrecht: Kluwer Academic Publisher,1991.

      [2] Ziarko W.Variable precision rough set model[J]. Journal of Computer System Science, 1993,46(1): 39-59.

      [3]Hu Qinghua,Yu Daren,XIE Zongxia.Numerical Attribute Reduction Based on Neighborhood Granulation and Rough Approximation[J].Journal of Software,2008,19 (3):640-649.

      [4] 沈林.基于隨機(jī)抽樣的變精度鄰域粗糙集特征選擇[J].廊坊師范學(xué)院學(xué)報(bào)(自然科學(xué)版),2019,19(2):14-17.

      [5] 王月,趙茂先.基于最大最小爬山算法的肺癌預(yù)后模型[J].山東科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,39(2):105-110.

      [6] 張紹宇.肺腺癌磨玻璃結(jié)節(jié)和實(shí)性結(jié)節(jié)臨床特點(diǎn)及預(yù)后相關(guān)因素分析[D].蘇州:蘇州大學(xué),2017.

      [7] 楊宏薇.肺結(jié)節(jié)特征提取和特征選擇的研究及系統(tǒng)實(shí)現(xiàn)[D].重慶:重慶大學(xué),2010.

      【摘? ?要】? ?判斷肺部結(jié)節(jié)是否是肺癌,是具有重大意義的工作,通過分析肺癌臨床數(shù)據(jù),可以找出和肺癌最相關(guān)的特征。首先,從醫(yī)院采集肺部結(jié)節(jié)切除術(shù)的數(shù)據(jù),使用一種改進(jìn)的變精度鄰域粗糙集對其進(jìn)行特征選擇;其次,在實(shí)驗(yàn)中使用多種算法驗(yàn)證特征選擇的有效性。

      【關(guān)鍵詞】? ?肺癌;特征選擇;鄰域粗糙集

      Feature Selection of Lung Cancer in Putian Based

      on Neighborhood Rough Sets

      Shen Lin1, Chen Jinqing2, Hu Jianxiong2, Cai Ronggui1

      (1.Putian University, Putian 351100, China;

      2.The Affiliated Hospital Of Putian University, Putian 351100, China)

      【Abstract】? ? It is of great significance to determine whether lung nodules are lung cancer. This paper, by analyzing the clinical data of lung cancer, finds out the most relevant features of lung cancer. First, the data of lung nodule resection were collected from the hospital. Then, an improved variable precision neighborhood rough sets is used for feature selection. Finally, several algorithms are used to verify the effectiveness of feature selection.

      【Key words】? ? ?lung cancer; feature selection; neighborhood rough sets

      猜你喜歡
      特征選擇肺癌
      中醫(yī)防治肺癌術(shù)后并發(fā)癥
      對比增強(qiáng)磁敏感加權(quán)成像對肺癌腦轉(zhuǎn)移瘤檢出的研究
      Kmeans 應(yīng)用與特征選擇
      電子制作(2017年23期)2017-02-02 07:17:06
      基于GA和ELM的電能質(zhì)量擾動識別特征選擇方法
      PFTK1在人非小細(xì)胞肺癌中的表達(dá)及臨床意義
      聯(lián)合互信息水下目標(biāo)特征選擇算法
      基于特征選擇聚類方法的稀疏TSK模糊系統(tǒng)
      microRNA-205在人非小細(xì)胞肺癌中的表達(dá)及臨床意義
      基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
      基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
      华池县| 安新县| 商丘市| 龙门县| 天镇县| 长泰县| 扎兰屯市| 沁源县| 铜鼓县| 凤凰县| 巴塘县| 南溪县| 监利县| 化州市| 旬阳县| 蒲城县| 洛浦县| 顺平县| 博白县| 什邡市| 惠水县| 莲花县| 丰镇市| 隆尧县| 文山县| 贵州省| 镇平县| 塔河县| 洛隆县| 平舆县| 永嘉县| 鄂温| 方城县| 云阳县| 休宁县| 天祝| 三亚市| 阿尔山市| 灵川县| 中西区| 泰和县|