• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于隱結(jié)構(gòu)分析建立中醫(yī)證候分型規(guī)則的三種方法*

      2019-05-18 02:05:58許玉龍吳秀艷李延龍王天芳張連文薛曉琳
      關(guān)鍵詞:證候聚類變量

      許玉龍,吳秀艷,李延龍,王天芳**,張連文,薛曉琳

      (1.河南中醫(yī)藥大學(xué)信息技術(shù)學(xué)院 鄭州 450046;2.香港科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)系 香港;3.北京中醫(yī)藥大學(xué) 北京 100070)

      中醫(yī)辨證過(guò)程實(shí)質(zhì)上是在無(wú)金標(biāo)準(zhǔn)情況下對(duì)患者進(jìn)行分類的問(wèn)題[1,2],在研究中醫(yī)證候時(shí),常用的方法有數(shù)據(jù)回歸分析、聚類分析、主成分分析、因子分析等[3],但這些技術(shù)在中醫(yī)證候分類研究時(shí)存在不足。回歸分析基于專家對(duì)過(guò)往病例的判斷建立辨證規(guī)則,缺乏客觀性;聚類分析主要用于對(duì)癥狀變量聚類,而辨證是把患者分類;主成分分析和因子分析是數(shù)據(jù)降維方法,不對(duì)患者進(jìn)行分類,其工作原理也與中醫(yī)思維不符;因子分析研究都把癥狀視為實(shí)數(shù)值變量,并假設(shè)它們是由一組相互獨(dú)立的實(shí)數(shù)值隱變量(代表證候)通過(guò)線性關(guān)系確定的。

      隱類分析是一種患者聚類方法,它把癥狀視為離散變量(一般是二值),其基本思想是:某患者是否屬于一個(gè)證候類型取決于一組癥狀的出現(xiàn)情況,這與中醫(yī)思維吻合。隱類分析在西醫(yī)研究中已得到廣泛運(yùn)用,截止2011年,隱類分析關(guān)于在西醫(yī)研究中應(yīng)用的文章有180 余篇,且增長(zhǎng)速度較快。比如,學(xué)者Li et al[4]利用隱類分析研究了漢族婦女重型抑郁癥亞型問(wèn)題,該問(wèn)題與中醫(yī)辨證分型類似,都是要在無(wú)金標(biāo)準(zhǔn)的情況下對(duì)患者進(jìn)行分類。關(guān)于隱類分析的原理,Li Y 說(shuō):“一般而言,臨床診斷的經(jīng)驗(yàn),是由臨床專家通過(guò)觀察大量患者,總結(jié)關(guān)鍵癥狀和體征出現(xiàn)的規(guī)律(同質(zhì)性)而逐漸形成的。隱類分析能以相對(duì)嚴(yán)謹(jǐn)?shù)亟y(tǒng)計(jì)學(xué)方式,模擬上述過(guò)程[4]”。隱類分析的輸入是一組癥狀以及這些癥狀在患者身上出現(xiàn)情況的數(shù)據(jù),其結(jié)果是在概率意義下把患者聚為若干個(gè)類。但是,隱類分析有一個(gè)嚴(yán)重的弱點(diǎn),它依賴局部獨(dú)立假設(shè),即在每個(gè)類中,觀測(cè)的癥狀值是相互獨(dú)立的[5]。換句話說(shuō),模型假設(shè)癥狀的出現(xiàn)與否直接由其所屬類別決定,而不受其它因素影響。但在實(shí)際中這個(gè)假設(shè)往往不成立,從而導(dǎo)致估計(jì)的偏差[5]。

      隱樹(shù)分析法,又稱隱結(jié)構(gòu)分析法[6,7],是對(duì)隱類分析法的改進(jìn),它放寬了隱類模型的局部獨(dú)立假設(shè),使得模型能夠更好地與數(shù)據(jù)擬合,也更貼近中醫(yī)理論。近年來(lái)的相關(guān)研究表明[8-13],利用隱結(jié)構(gòu)分析能較合理地模擬中醫(yī)辨證論治的過(guò)程,彌補(bǔ)常規(guī)方法存在的不足,適合于研究中醫(yī)證候問(wèn)題。

      表1 中醫(yī)證候以及其相應(yīng)的癥狀

      圖1 打開(kāi)模型學(xué)習(xí)功能

      隱結(jié)構(gòu)法有單步隱樹(shù)分析和雙步隱樹(shù)分析兩個(gè)版本。顧名思義,雙步隱樹(shù)分析有兩個(gè)步驟:第一步是對(duì)所有癥狀數(shù)據(jù)進(jìn)行隱樹(shù)分析,全面揭示數(shù)據(jù)的各個(gè)側(cè)面,得到總體模型;第二步審視第一步的結(jié)果,依據(jù)醫(yī)學(xué)知識(shí),選擇與某證候相關(guān)的隱變量和癥狀,并建立一個(gè)針對(duì)該證候的隱樹(shù)模型,對(duì)患者進(jìn)行聚類分析。隱類分析在對(duì)患者進(jìn)行聚類時(shí)使用的是癥狀顯變量,而隱樹(shù)分析使用的變量部分是隱變量,從而局部假設(shè)得到放寬。單步隱樹(shù)分析的出發(fā)點(diǎn)與隱類分析一致,即與某證候相關(guān)的一組癥狀以及關(guān)于這些癥狀的病例數(shù)據(jù)。它通過(guò)分析這些數(shù)據(jù),而不是包含所有癥狀的數(shù)據(jù),一步建立針對(duì)該證候的隱樹(shù)模型,對(duì)患者進(jìn)行聚類分析。

      為介紹和驗(yàn)證隱類分析、單步隱樹(shù)分析、雙步隱樹(shù)分析這三種方法在分析數(shù)據(jù)時(shí)的差異,以及其建立模型質(zhì)量的優(yōu)劣,本文針對(duì)801 例肝硬化患者的中醫(yī)癥狀數(shù)據(jù),分別用上述三種方法進(jìn)行分析,并對(duì)比得到的模型及其BIC分值,來(lái)揭示三種方法各自的特點(diǎn),以便在研究和應(yīng)用時(shí)做出適當(dāng)?shù)倪x擇。

      1 三種方法介紹

      隱類分析、單步隱樹(shù)分析和雙步隱樹(shù)分析的基本功能是[13,15]:依據(jù)用戶提供的癥狀數(shù)據(jù),可將患者分別聚成兩個(gè)或多個(gè)類別,這些結(jié)果可用來(lái)確定證候的分布情況和特點(diǎn)。下面以801例肝炎肝硬化患者的癥狀數(shù)據(jù)為例,對(duì)上述三種方法做簡(jiǎn)單介紹。

      1.1 數(shù)據(jù)情況

      本文使用的801 例數(shù)據(jù)源自2011 年11 月至2012年9月在解放軍302醫(yī)院、湖北省中醫(yī)院、首都醫(yī)科大學(xué)附屬北京地壇醫(yī)院、首都醫(yī)科大學(xué)附屬北京佑安醫(yī)院、北京中醫(yī)藥大學(xué)東方醫(yī)院、中國(guó)中醫(yī)科學(xué)院西苑醫(yī)院、首都醫(yī)科大學(xué)附屬北京中醫(yī)醫(yī)院及廣西中醫(yī)藥大學(xué)第一附屬醫(yī)院的門診或住院部采集的真實(shí)病例數(shù)據(jù)。數(shù)據(jù)包含97個(gè)癥狀,每條記錄對(duì)應(yīng)在某患者身上出現(xiàn)的相關(guān)癥狀信息,癥狀出現(xiàn)時(shí)值為1,不出現(xiàn)時(shí)值為0。數(shù)據(jù)是無(wú)標(biāo)簽的,即無(wú)辨證結(jié)論。

      參考團(tuán)隊(duì)中醫(yī)專家組的經(jīng)驗(yàn)和行業(yè)委員會(huì)發(fā)布的證候標(biāo)準(zhǔn),依據(jù)待分析的癥狀信息,分別選出氣虛證、氣滯證、熱證、濕證、水停證、血瘀證、陽(yáng)虛證、陰虛證,共8個(gè)證候所涉及的癥狀(表1)。

      使用孔明燈隱結(jié)構(gòu)分析軟件[15]對(duì)數(shù)據(jù)進(jìn)行分析,其包含了隱類分析、單步隱樹(shù)分析、雙步隱樹(shù)分析三種方法。

      1.2 隱類分析法

      以氣虛證為例介紹隱類分析法。操作流程是首先在孔明燈軟件中,點(diǎn)擊“分析”—“隱樹(shù)模型學(xué)習(xí)”(圖1);讀入氣虛證涉及9個(gè)癥狀的數(shù)據(jù)文件,使用隱類分析算法LCM處理(圖2);接著點(diǎn)擊確定,運(yùn)行后得到氣虛證的患者聚類模型(圖3)。注意,隱類模型是一種特殊的隱樹(shù)模型,所以在孔明燈軟件中歸于“隱樹(shù)分析之下”。

      隱類分析得到的模型只包含一個(gè)患者聚類變量(隱變量“氣虛”),它直接與癥狀變量相連,表示它假設(shè)癥狀的出現(xiàn)與否直接由患者所屬類別完全決定,而不受其它因素影響。聚類模型把患者分成了3 類,稱為隱類S0、S1、S2(表2)。隱類S0、S1、S2的患者數(shù)占總數(shù)比率分別為0.36、0.51、0.13。在隱類S0 中,癥狀“神疲”、“乏力”、“便溏”、“懶言”出現(xiàn)的概率分別為0.16、0.44、0.13、0.07,這些癥狀出現(xiàn)的概率較小,可認(rèn)為隱類S0為非氣虛人群。在隱類S1中,上述癥狀出現(xiàn)的概率分別為0.86、1、0.06、0.54,它們出現(xiàn)的概率都較大,認(rèn)為是屬于氣虛人群。在隱類S2中,上述癥狀出現(xiàn)的概率分別為0.89、0.96、0.97、0.61,所有癥狀出現(xiàn)的概率都較大,也認(rèn)為是屬于氣虛人群。在S2 類中,“便溏”出現(xiàn)的概率遠(yuǎn)大于類S1,根據(jù)中醫(yī)知識(shí),脾虛會(huì)造成“便溏”的出現(xiàn),所以可認(rèn)為S2類為脾氣虛人群。

      1.3 單步隱樹(shù)分析法

      使用單步隱樹(shù)分析時(shí),用戶提供的輸入數(shù)據(jù)與隱類分析完全相同。以氣虛證為例,在孔明燈軟件中,點(diǎn)擊“分析”中的“隱樹(shù)模型學(xué)習(xí)”,該步驟與圖1 相同。讀入氣虛證涉及9 個(gè)癥狀的數(shù)據(jù)文件,使用單步隱樹(shù)分析算法(UC-LTM)分析處理(圖4),然后點(diǎn)擊確定,運(yùn)行得到氣虛證患者聚類模型(圖5)。

      單步隱樹(shù)分析使用UC-LTM(unidimensional cluster with latent tree model)算法[14]處理數(shù)據(jù)(圖5),模型包含有隱變量“Y1”和患者聚類變量“氣虛”。然后,利用模型對(duì)數(shù)據(jù)進(jìn)行聚類分析,結(jié)果把患者聚成了S0和S1兩個(gè)隱類,各類中癥狀出現(xiàn)的概率(表2)。與圖3隱類分析得到的模型不同,圖5 的模型認(rèn)為氣虛不直接影響所有癥狀,它通過(guò)一個(gè)隱變量“Y1”間接影響“便溏”、“泄瀉”等5 個(gè)癥狀。這樣,局部獨(dú)立假設(shè)得到了放寬。從表3 可知,隱類S0 占人群總數(shù)的36%,在隱類S0 中,癥狀“神?!?、“乏力”、“面色晦暗”、“懶言”出現(xiàn)概率分別為0.15、0.44、0.55、0.07;隱類S1 占人群總數(shù)的64%,在隱類S1中,上述癥狀出現(xiàn)概率分別為0.86、0.99、0.72、0.56。明顯地,隱類S1中所有癥狀出現(xiàn)概率全部大于隱類S0,即可以推斷隱類S1 為氣虛證人群,S0為非氣虛證人群。

      1.4 雙步隱樹(shù)分析法

      雙步隱樹(shù)分析[12,13,16]有兩大步驟,所以稱為雙步隱樹(shù)分析法。第一步,對(duì)數(shù)據(jù)中所有癥狀(而不是只針對(duì)某證候的癥狀,這與隱類分析和單步隱樹(shù)分析不同)進(jìn)行分析,得到整體模型。第二步依據(jù)醫(yī)學(xué)專業(yè)知識(shí),參照第一步的結(jié)果,選取與某證候有關(guān)的癥狀,利用它們和整體模型構(gòu)造最終的患者聚類模型,然后對(duì)患者進(jìn)行聚類。

      圖2 讀入數(shù)據(jù),選擇隱類分析LCM算法

      圖3 隱類分析得到的氣虛證聚類模型

      表2 圖3對(duì)應(yīng)的隱類及其概率分布

      圖4 讀入數(shù)據(jù),選擇單步隱樹(shù)分析UC-LTM算法

      圖5 單步隱樹(shù)分析得到的氣虛證聚類模型

      表3 圖5對(duì)應(yīng)的隱類及其概率分布

      圖6 讀入數(shù)據(jù),選擇雙步隱樹(shù)分析LTM-EAST算法

      以氣虛證舉例,在孔明燈軟件中點(diǎn)擊“分析”中的“隱樹(shù)模型學(xué)習(xí)”,該步驟與圖1相同。然后,讀入所有的癥狀數(shù)據(jù)(注意不只是氣虛的數(shù)據(jù)),選擇EAST 或BI算法學(xué)習(xí)(圖6),點(diǎn)擊確定,運(yùn)行后得到總體模型如圖7所示。依據(jù)表1中氣虛證涉及的癥狀,在總體模型中選取這些癥狀進(jìn)行綜合聚類,得到最終的患者聚類模型如圖8所示,它包括隱變量Y1、Y2、Y3和患者聚類變量“氣虛”(證候隱變量)。注意,在圖8中神疲、乏力通過(guò)一個(gè)隱變量與證候間接相連,這是因?yàn)樵诘谝徊椒治鲋?,它們被放在同一個(gè)隱變量(Y26)下,表示它們來(lái)自數(shù)據(jù)的同一個(gè)側(cè)面。另一方面,自汗在第一步分析中與其它幾個(gè)癥狀一起被放在隱變量Y20 下,這些癥狀中只有自汗一個(gè)癥狀與氣虛有關(guān),所以在綜合聚類模型中,它直接與證候隱變量相連。

      與單步隱樹(shù)分析得到的模型相比,圖8 模型的中間層隱變量更多,它把“神?!薄ⅰ胺αΑ睔w納為一個(gè)隱變量Y1;把“便溏”、“泄瀉”歸納為一個(gè)隱變量Y2;把“面色晦暗”、“面色淡黃”歸納為一個(gè)隱變量Y3,這些癥狀都分別反映相同或相近的側(cè)面。雙步隱樹(shù)分析利用圖8 模型對(duì)數(shù)據(jù)進(jìn)行聚類分析,把患者聚類變量分成了S0和S1兩個(gè)隱類,每個(gè)類的特性(表3)。

      從表4可以看出,隱類S0占患者群的39%,在隱類S0 中,癥狀神疲、乏力、泄瀉、懶言出現(xiàn)概率分別為0.24、0.51、0.06、0.04。隱類S1 占患者群的61%,在隱類S1中,上述癥狀出現(xiàn)的概率分別為0.85、0.98、0.18、0.6,他們?cè)诖祟愔谐霈F(xiàn)的概率明顯高于隱類S0,即可推斷隱類S1為氣虛證人群,S0為非氣虛人群。與表2相比,表3中增加了泄瀉癥狀,且在隱類S1中該癥狀的出現(xiàn)概率明顯高于S0類。

      2 三種方法的比較

      2.1 關(guān)于其它證候的患者聚類模型

      除了氣虛證,我們還對(duì)肝硬化患者群的其它證候分布情況進(jìn)行了研究,相應(yīng)模型(圖4),其中證候隱變量旁邊的數(shù)字為隱類個(gè)數(shù)。為節(jié)省空間,只展示氣虛證、熱證、濕證用三種方法得到的患者聚類模型。

      隱類分析相比,兩種隱樹(shù)分析得到的患者聚類模型一般包含多個(gè)隱變量,從而放寬了局部獨(dú)立假設(shè),另外,其得到的隱類個(gè)數(shù)也相對(duì)較少,便于對(duì)患者的分類(表5)。

      2.2 模型評(píng)分的比較

      在對(duì)數(shù)據(jù)進(jìn)行聚類分析時(shí),不同方法得到的模型不同,如何判斷模型的優(yōu)劣?我們使用BIC(Bayes Information Criterion)評(píng)分[17]。BIC 評(píng)分是統(tǒng)計(jì)學(xué)中常用的模型評(píng)價(jià)準(zhǔn)則,它要求模型與數(shù)據(jù)盡量擬合,但不能過(guò)于復(fù)雜。實(shí)際上在聚類算法中,類的個(gè)數(shù)也是由BIC評(píng)分來(lái)確定。

      圖7 雙步隱樹(shù)分析得到總體模型

      圖8 雙步隱樹(shù)分析綜合聚類后得到的聚類模型

      表4 圖8對(duì)應(yīng)的隱類及其概率分布

      表6 給出了所有證候聚類模型的BIC 分,采用負(fù)分法計(jì)量,其分值越大越好??梢钥闯觯褂秒[類分析得到模型的分值普遍較小,即模型質(zhì)量較差。單步隱樹(shù)分析得到模型的BIC得分接近或略好于雙步隱樹(shù)分析,具體而言,在氣虛證、濕證中,單步隱樹(shù)分析得到模型的分值較好;在氣滯和熱證中,雙步隱樹(shù)法得到模型的分值較好;在其它證候中,單步隱樹(shù)分析得到模型的分值稍微較好??傊?,僅從表6模型的BIC分?jǐn)?shù)來(lái)看,在三種方法中,單步隱樹(shù)分析和雙步隱樹(shù)分析得到的模型得分均優(yōu)于隱類分析的模型,雙步隱樹(shù)分析得到模型的BIC分值接近或稍微差于單步隱樹(shù)分析。

      表5 隱類分析、單步隱樹(shù)分析和雙步隱樹(shù)分析得到聚類模型

      表6 三種方法得到聚類模型的BIC分?jǐn)?shù)對(duì)比

      2.3 模型結(jié)構(gòu)的比較

      首先以氣虛證為例,對(duì)表4 中的聚類模型圖4a、4b、4c進(jìn)行對(duì)比分析。單步隱樹(shù)分析的聚類模型(4b)把“舌色淡白”、“面色淡黃”、“泄瀉”、“便溏”、“自汗”五個(gè)癥狀歸為一個(gè)隱變量Y1,他們都反映了患者的狀態(tài),而其他所有癥狀與證候隱變量直接相連。雙步隱樹(shù)分析的聚類模型(4c)把“神疲”、“乏力”歸為一個(gè)隱變量Y1,他們從整體角度反映了患者的精神狀態(tài);把“便溏”、“泄瀉”歸為一個(gè)隱變量Y2,他們從二便角度反映了脾陽(yáng)虛情況;把“面色晦暗”、“面色淡黃”歸為一個(gè)隱變量Y3,他們都從面色角度反映了患者的病情特征。從上述對(duì)比可知,雙步隱樹(shù)分析得到的聚類模型較為復(fù)雜,它增加了隱變量個(gè)數(shù),每個(gè)隱變量更明細(xì)反映了某種相似的側(cè)面。由于模型復(fù)雜,在計(jì)算BIC 分?jǐn)?shù)時(shí)懲罰項(xiàng)較多,所以模型得分略差,但整體而言,雙步隱樹(shù)分析的聚類模型更為合理。

      考慮熱證的聚類模型,發(fā)現(xiàn)單步隱樹(shù)分析的模型表4e 和雙步隱樹(shù)分析的聚類模型4f 中存在相同的隱變量,即他們把“口渴”、“口咽干燥”和“老舌”、“燥_糙苔”分別歸納到相同的隱變量下,這兩個(gè)隱變量均從口感和舌像角度反映了熱證的情況,從而驗(yàn)證了兩種分析方法在考慮相似側(cè)面的一致性。兩個(gè)聚類模型區(qū)別為:雙步隱樹(shù)分析將“尿色深黃”、“便秘”歸為一個(gè)隱變量,將“發(fā)熱”、“數(shù)脈”歸為一個(gè)隱變量,較單步隱樹(shù)分析更清晰地揭示了在二便和整體上的表現(xiàn),分類更為細(xì)致,更符合肝炎肝硬化的臨床表現(xiàn),所以雙步隱樹(shù)分析的模型結(jié)構(gòu)和BIC評(píng)分都優(yōu)于另外兩種方法。

      對(duì)濕證的模型結(jié)構(gòu)比較,從模型的BIC評(píng)分來(lái)看,單步隱樹(shù)分析得到的模型優(yōu)于雙步隱樹(shù)分析;但對(duì)模型表4h 和4i 比較發(fā)現(xiàn),在4i 中,雙步隱樹(shù)分析模型把“納呆”、“厭油膩”歸為一個(gè)隱變量,較單步隱樹(shù)分析把“納呆”、“厭油膩”和“黃疸”歸為一個(gè)隱變量更為合理。因?yàn)辄S疸是反映患者的整體情況,而納呆和厭油膩反映了患者的脾胃功能。另外,雙步隱樹(shù)分析把“齒痕舌”、“胖舌”歸為一個(gè)隱變量,更為精確地從舌質(zhì)角度反映了濕證的情況。

      綜上所述,從得到患者聚類模型及中醫(yī)詮釋考慮,雙步隱樹(shù)分析得到模型的結(jié)構(gòu)更合理,較符合實(shí)際臨床,優(yōu)于或不差于另外兩種方法;從得到模型的BIC得分和方法使用步驟來(lái)看,單步隱樹(shù)分析得到模型的得分較好、操作步驟較為簡(jiǎn)單,優(yōu)于另外兩種方法。隱類分析方法則較適合于在滿足局部獨(dú)立假設(shè)的情況下,進(jìn)行簡(jiǎn)單的數(shù)據(jù)分析。

      3 總結(jié)

      辨證論治是中醫(yī)的精髓,但目前尚無(wú)證候診斷的相關(guān)金標(biāo)準(zhǔn),在臨床診病過(guò)程中,證候的確定較嚴(yán)重地受醫(yī)生主觀性影響。隱類和隱結(jié)構(gòu)分析已被證明是研究此類問(wèn)題的適宜方法,本文介紹了三種基于無(wú)標(biāo)簽癥狀數(shù)據(jù)建立證候分型的隱類及隱結(jié)構(gòu)方法,并在801 例肝炎肝硬化患者癥狀數(shù)據(jù)上進(jìn)行測(cè)試,對(duì)三種方法的特點(diǎn)和效果進(jìn)行比較分析,明確它們各自的優(yōu)勢(shì)和不足,以便在臨床研究中供用戶選擇使用。這些方法的使用可以促進(jìn)辨證分型的客觀化,提高臨床診療的一致性。

      猜你喜歡
      證候聚類變量
      肥胖中醫(yī)證候動(dòng)物模型研究進(jìn)展
      抓住不變量解題
      也談分離變量
      基于DBSACN聚類算法的XML文檔聚類
      基于改進(jìn)的遺傳算法的模糊聚類算法
      SL(3,3n)和SU(3,3n)的第一Cartan不變量
      昆明地區(qū)兒童OSAHS中醫(yī)證候聚類分析
      一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
      分離變量法:常見(jiàn)的通性通法
      自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
      江北区| 邹城市| 南川市| 张家港市| 临泽县| 彩票| 安泽县| 旬邑县| 庐江县| 福州市| 青川县| 临猗县| 翼城县| 河南省| 札达县| 昭平县| 察雅县| 邮箱| 临清市| 英山县| 连州市| 资中县| 澎湖县| 凌源市| 启东市| 大厂| 佛坪县| 中宁县| 育儿| 桐城市| 株洲县| 若尔盖县| 喜德县| 桦南县| 金塔县| 武义县| 维西| 页游| 灌云县| 高清| 车致|