牛競(jìng)斌,徐瑋斐,錢(qián)鵬,蓋筱,鄭義馨,顏建軍,劉國(guó)萍
(1.上海中醫(yī)藥大學(xué)基礎(chǔ)醫(yī)學(xué)院,上海 201203;2.華東理工大學(xué)機(jī)械與動(dòng)力工程學(xué)院,上海 200237)
中醫(yī)的主癥[1-2]是指疾病的主要脈癥,反映了疾病的病因、病理和病性,是臨床辨證的關(guān)鍵所在。它由疾病的主要矛盾決定,并影響著其他癥狀的出現(xiàn)。抓主癥方法的實(shí)用性強(qiáng),是中醫(yī)治病求本原則的極好體現(xiàn)。劉渡舟教授[1]提倡“抓主癥”,指出每種病證都有其特異性主癥,可能是某單一癥狀,也可能是由若干個(gè)癥狀共同組成。當(dāng)今國(guó)醫(yī)大師熊繼柏教授也強(qiáng)調(diào)“抓主癥”是治療癥狀繁雜、多重病機(jī)惡性腫瘤的重要思路[3]。特征選擇[4]是從一組原始特征中挑選出一個(gè)最有效的特征子集,去掉數(shù)據(jù)中不相關(guān)或者不重要的信息,以達(dá)到降低特征空間維數(shù)的目的,這與劉渡舟教授倡導(dǎo)的“抓主癥”目標(biāo)相似。
隨著數(shù)理統(tǒng)計(jì)學(xué)及計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)的迅速發(fā)展,不同病證的主癥選擇研究不斷涌現(xiàn),為中醫(yī)證候診斷的客觀化研究提供了有益的方法學(xué)參考。如甘小金[5]運(yùn)用貝葉斯網(wǎng)絡(luò)方法對(duì)子宮內(nèi)膜異位性疾病患者進(jìn)行研究,獲得了寒凝、濕熱、氣滯等證候的主癥;薛亞靜[6]運(yùn)用貝葉斯網(wǎng)絡(luò)技術(shù)聯(lián)合Logistic回歸分析對(duì)523例焦慮抑郁共病患者不同證候的主癥進(jìn)行選擇;陳為[7]運(yùn)用聚類(lèi)分析等多種統(tǒng)計(jì)學(xué)方法對(duì)慢性腎炎腎陽(yáng)虛證患者的主癥進(jìn)行篩選;楊小波等[8]基于粗糙集理論對(duì)潰瘍性結(jié)腸炎患者的中醫(yī)主癥進(jìn)行篩選。本課題組運(yùn)用近鄰傳播聚類(lèi)[9-10]、隨機(jī)森林[11]、互信息與粗糙集[12]等多種數(shù)據(jù)挖掘方法對(duì)慢性胃炎常見(jiàn)證候進(jìn)行主癥選擇探索,很好地提高了證候的分類(lèi)診斷準(zhǔn)確率。
慢性胃炎是一種由不同病因引起的胃黏膜的慢性炎癥,為消化系統(tǒng)的常見(jiàn)病和多發(fā)病,其發(fā)病率居各種胃病之首,占胃鏡檢查患者的90%[13]。慢性胃炎在中醫(yī)學(xué)屬“痞滿”“胃痛”等范疇,脾胃濕熱是其常見(jiàn)中醫(yī)證型之一[14]。而中醫(yī)辨證治療不僅能改善慢性胃炎患者的生活質(zhì)量,緩解黏膜糜爛、出血及膽汁反流導(dǎo)致的臨床不適,還能改善腺體萎縮、根除幽門(mén)螺旋桿菌、逆轉(zhuǎn)腸化、控制異型增生,進(jìn)而降低罹患胃癌的風(fēng)險(xiǎn)[15-18]。
本研究在課題組前期應(yīng)用的近鄰傳播聚類(lèi)[9-10]、隨機(jī)森林[11]、互信息與粗糙集[12]三種方法癥狀(體征)篩選的基礎(chǔ)上,針對(duì)不同方法選擇的主癥存在一定差異,我們將三種方法與判別分析結(jié)合,最終篩選出慢性胃炎脾胃濕熱證的主癥,以期為其他證候的主癥篩選提供新的借鑒和思路。
1.1 臨床資料本研究從中醫(yī)問(wèn)診(脾胃系)信息采集系統(tǒng)中選取慢性胃炎有效病例共919例(包括脾胃濕熱證177例)。其中,男性354例,平均年齡(44.61±14.54)歲;女性565例,平均年齡(48.70±12.74)歲。本研究獲得上海中醫(yī)藥大學(xué)倫理委員會(huì)批準(zhǔn),所納入樣本均同意參加本研究并簽署了知情同意書(shū)。西醫(yī)診斷標(biāo)準(zhǔn)參照中華醫(yī)學(xué)會(huì)消化病學(xué)分會(huì)制定的《中國(guó)慢性胃炎共識(shí)意見(jiàn)(2017年,上海)》[13],中醫(yī)辨證標(biāo)準(zhǔn)、納入標(biāo)準(zhǔn)、排除標(biāo)準(zhǔn)參考課題組前期制定的標(biāo)準(zhǔn)[19]。
1.2 研究方法由于不同方法選擇出的脾胃濕熱證主癥集合不同,因此本研究提出多種選擇方法集成機(jī)器學(xué)習(xí)的方法進(jìn)行主癥的篩選,綜合利用近鄰傳播聚類(lèi)、隨機(jī)森林、互信息和粗糙集等方法選擇出脾胃濕熱證主癥,采用判別分析進(jìn)行脾胃濕熱證主癥的篩選,以獲得診斷準(zhǔn)確率高、可解釋性好的脾胃濕熱證主癥。見(jiàn)圖1。
圖1 多種選擇方法集成機(jī)器學(xué)習(xí)方法進(jìn)行主癥篩選的技術(shù)路線Figure 1 Technicalroute of feature-selection algorithms integrated with machine learning method for the screening of primary syndromes
1.2.1 近鄰傳播聚類(lèi) 近鄰傳播聚類(lèi)算法[20]是一種無(wú)監(jiān)督聚類(lèi)算法,可高效處理大量數(shù)據(jù),對(duì)數(shù)據(jù)結(jié)構(gòu)對(duì)稱性也沒(méi)有要求,可以根據(jù)數(shù)據(jù)自身特點(diǎn)選取相關(guān)性較大的數(shù)據(jù)進(jìn)行分析,以便得到最優(yōu)聚類(lèi)結(jié)果。
1.2.2 隨機(jī)森林 隨機(jī)森林[21]是一種操作方便、結(jié)果可靠的分類(lèi)器,其模型根據(jù)拔靴法進(jìn)行有放回的抽樣,并根據(jù)輸入?yún)?shù)進(jìn)行特征值的隨機(jī)選取。它的優(yōu)點(diǎn)是無(wú)需對(duì)數(shù)據(jù)進(jìn)行預(yù)處理、適合處理多分類(lèi)問(wèn)題、不會(huì)出現(xiàn)過(guò)擬合。
1.2.3 互信息與粗糙集結(jié)合 互信息[22]是一種信息度量,可以認(rèn)為是一個(gè)隨機(jī)變量相對(duì)于另一個(gè)隨機(jī)變量所包含的信息量,用于描述兩個(gè)隨機(jī)變量之間的相互關(guān)系強(qiáng)弱。粗糙集[23]是一種用于處理含糊性和不確定性問(wèn)題的數(shù)學(xué)工具,它有優(yōu)越的知識(shí)簡(jiǎn)化能力,可以實(shí)現(xiàn)用最小的特征子集代替原始特征,從而消除冗余。將互信息和粗糙集結(jié)合,可以得到與類(lèi)別相關(guān)性大、特征之間冗余小的特征子集。
1.2.4 判別分析 判別分析是一種有監(jiān)督的特征選擇方法[24-25],它能有效地刪除不相關(guān)或冗余的特征,達(dá)到數(shù)據(jù)降維的目的。
1.3 統(tǒng)計(jì)分析本研究運(yùn)用SPSS 25.0統(tǒng)計(jì)軟件進(jìn)行逐步統(tǒng)計(jì)分析,并依據(jù)標(biāo)準(zhǔn)化典則判別函數(shù)系數(shù)的大小,以挑選脾胃濕熱證的主癥特征。
本研究將近鄰傳播聚類(lèi)、隨機(jī)森林、互信息等方法與判別分析融合進(jìn)行脾胃濕熱證主癥的篩選,獲取了慢性胃炎脾胃濕熱證的癥狀(體征)集。
2.1 基于近鄰傳播聚類(lèi)的脾胃濕熱證癥狀(體征)集本課題組前期運(yùn)用近鄰傳播聚類(lèi)方法[10]提取脾胃濕熱證的癥狀(體征)集,當(dāng)特征子集為前8個(gè)癥狀(體征)集時(shí),分類(lèi)器準(zhǔn)確率最高(見(jiàn)圖2),依據(jù)互信息大小排序分別為苔薄、嗜睡、苔白(0.098 9);苔黃、舌色紅、唇色紅、嘈雜(0.059 1);苔厚、苔膩、苔燥(0.045);舌邊齒痕、舌體胖大、全舌(0.019 4);唇色淡白、舌色淡白、面色淡白(0.012 8);小便色黃、口酸、手足心熱、舌色紫暗、舌瘦薄、舌根(0.005 1);苔黃白相兼、口澀、口氣重、面色紅、舌中裂(0.004 9);胃脘灼痛、喜冷、胸骨后燒灼感(0.004 2),共計(jì)30個(gè)癥狀(體征)。
圖2 脾胃濕熱證型近鄰傳播聚類(lèi)算法分類(lèi)準(zhǔn)確率曲線Figure 2 Classification accuracy curve of the affinity propagation clustering for the spleen and stomach damp-heat syndrome type
2.2 基于隨機(jī)森林的脾胃濕熱證癥狀(體征)集本課題組前期運(yùn)用隨機(jī)森林算法[11]在選取15個(gè)癥狀特征時(shí),識(shí)別率最高達(dá)到83.0%,結(jié)果見(jiàn)圖3。得到慢性胃炎臨床常見(jiàn)濕熱證候的最優(yōu)癥狀(體征)子集,將其按重要度排序,得到的前15個(gè)癥狀(體征)分別為苔黃、苔白、苔膩、舌色紅、苔厚、舌色淡白、苔薄、苔黃白相兼、齒痕舌、胖大舌、面色萎黃、惡心嘔吐、右手脈弦、頭暈、舌中。結(jié)果見(jiàn)表1。
圖3 基于隨機(jī)森林的Real算法不同特征數(shù)下平均準(zhǔn)確率變化Figure 3 Variation of the average accuracy of the REAL algorithm based on the random forest with different number of feature
表1 基于隨機(jī)森林算法的慢性胃炎脾胃濕熱證的癥狀(體征)集Table 1 Symptom(sign)set of spleen and stomach damp-heat syndrome type of chronic gastritis based on the random forest algorithm
2.3 基于互信息和粗糙集結(jié)合的脾胃濕熱證癥狀(體征)集本課題組前期運(yùn)用互信息和粗糙集結(jié)合[12]的方法,共挑選出20個(gè)與脾胃濕熱證相關(guān)的癥狀(體征),按屬性依賴度排序依次為:苔黃、右手脈滑、胸骨后燒灼感、苔膩、舌色紅、齒痕舌、苔厚、舌色淡白、口粘膩、舌色絳、苔白、苔薄、胖大舌、右手脈沉、舌中、全舌、面色淡白、口苦、唇色紅、苔燥。結(jié)果見(jiàn)表2。
表2 基于互信息和粗糙集的慢性胃炎脾胃濕熱證的癥狀(體征)集Table 2 Symptom(sign)set of spleen and stomach damp-heat syndrome type of chronic gastritis based on mutual information and rough sets
2.4 3種方法的癥狀(體征)集匯總從以上結(jié)果可以看出,不同方法獲取的脾胃濕熱證癥狀(體征)個(gè)數(shù)不同,基于近鄰傳播聚類(lèi)獲取的癥狀(體征)30個(gè),基于隨機(jī)森林算法獲取的癥狀(體征)15個(gè),基于互信息和粗糙集結(jié)合的癥狀(體征)20個(gè)。匯總3種方法的結(jié)果,我們發(fā)現(xiàn)共同的癥狀(體征)有苔黃、苔白、苔膩、舌色紅、苔厚、舌色淡白、苔薄、齒痕舌、胖大舌等共9個(gè)。具體見(jiàn)表3。
表3 3種方法的慢性胃炎脾胃濕熱證主癥選擇結(jié)果Table 3 Results of the primary syndromes for spleen and stomach damp-heat syndrome type of chronic gastritis screened by the three methods
2.5 基于判別分析的脾胃濕熱證癥狀(體征)集將以上3種方法獲取到的9個(gè)相同癥狀(體征),運(yùn)用判別分析方法進(jìn)行進(jìn)一步的主癥選擇,獲得脾胃濕熱證主癥共7個(gè)癥狀(體征),判別分析的準(zhǔn)確率為89.4%。其中,4個(gè)癥狀(體征)的典則判別函數(shù)系數(shù)為正值,3個(gè)癥狀(體征)的典則判別函數(shù)系數(shù)為負(fù)值,按照標(biāo)準(zhǔn)化典則判別函數(shù)系數(shù)大小依次為苔黃(1.641)、苔白(-1.065)、苔膩(0.757)、舌色紅(0.504)、苔厚(0.495)、舌色淡白(-0.323)、胖大舌(-0.269)。具體見(jiàn)表4。
表4 判別分析篩選的慢性胃炎脾胃濕熱證癥狀(體征)集Table 4 Discriminant analysis of the set of symptoms(signs)of spleen and stomach damp-heat syndrome type of chronic gastritis
慢性胃炎是由多種原因引起的各種胃黏膜慢性炎性病變[26-28]。基于內(nèi)鏡診斷的慢性胃炎患病率高達(dá)90%[13]。慢性胃炎是炎癌轉(zhuǎn)化的重要途徑[29]。脾胃濕熱證是慢性胃炎較為常見(jiàn)的實(shí)證之一[30],是由于濕熱蘊(yùn)結(jié)脾胃,導(dǎo)致脾失健運(yùn)、胃失納降,或者由于飲食不節(jié)、過(guò)食肥甘厚味而形成的證候[31];又因上海地處東南,而“東南地土卑弱,濕熱相火為病甚多”(朱丹溪《格致余論》)[32],故患者易感濕熱之邪而表現(xiàn)為脾胃濕熱證。
劉渡舟教授倡導(dǎo)“抓主癥”的方法實(shí)用性強(qiáng),與計(jì)算機(jī)數(shù)據(jù)挖掘中特征選擇的目標(biāo)相似,因此,本研究將近鄰傳播聚類(lèi)、隨機(jī)森林、互信息與粗糙集、判別分析等方法融合,獲得了脾胃濕熱證的主癥集合,包括苔黃(1.641)、苔白(-1.065)、苔膩(0.757)、舌色紅(0.504)、苔厚(0.495)、舌色淡白(-0.323)、胖大舌(-0.269)等共7個(gè)癥狀(體征)。脾胃濕熱證主癥集合的7個(gè)癥狀(體征)中有4個(gè)正相關(guān)的舌象特征,分別為苔黃、苔膩、舌色紅、苔厚?!兜は姆ā吩唬骸坝兄T內(nèi)者,必形諸外。”舌為脾之外候,舌苔是由胃氣蒸化水谷之氣上承于舌面而形成,舌象變化與脾胃生理病理變化密切相關(guān),故稱“舌為胃之鏡”??梢?jiàn)舌質(zhì)和舌苔變化對(duì)脾胃濕熱證診斷極為重要。從臨床實(shí)踐來(lái)看,舌苔的變化迅速更易觀察[33],而此次研究挑選出脾胃濕熱證診斷貢獻(xiàn)度最大的兩個(gè)癥狀(體征)是苔黃和苔白,有現(xiàn)代研究顯示舌苔上的黃色菌落是致使黃苔形成的主要原因之一[34]。馬廣強(qiáng)等[35]研究認(rèn)為,放線菌菌群的增多可能是黃膩舌苔形成的主要原因之一,健康人出現(xiàn)黃膩苔可在一定程度上提示體內(nèi)潛在的炎性預(yù)警。苔膩表現(xiàn)為苔質(zhì)顆粒細(xì)膩致密,不易刮脫,其形成則主要由于舌苔菌狀乳頭的密度增加、充滿細(xì)菌所致[36]。眾多文獻(xiàn)及臨床研究結(jié)果[37-40]均顯示舌紅、苔黃膩是脾胃濕熱證的典型舌象表現(xiàn),是診斷必備的主癥;中醫(yī)理論認(rèn)為,脾胃濕熱蘊(yùn)結(jié),濕濁上泛,患者多表現(xiàn)為苔厚、苔膩;熱邪使脈道擴(kuò)張、血流加速,而見(jiàn)舌紅;濕熱熏蒸而見(jiàn)苔黃。此外,苔白、舌色淡白和舌胖大為負(fù)相關(guān)的體征,其中苔白的典則判別函數(shù)系數(shù)僅次于苔黃,同樣成為鑒別診斷脾胃濕熱證的重要癥狀(體征),提示慢性胃炎脾胃濕熱證患者中鮮見(jiàn)苔白,少見(jiàn)舌色淡白及舌體胖大,可見(jiàn)以上癥狀(體征)與中醫(yī)理論和臨床實(shí)際相吻合。
本研究運(yùn)用多種數(shù)據(jù)處理方法融合獲得的慢性胃炎脾胃濕熱證主癥的結(jié)果與中醫(yī)理論及臨床實(shí)際基本一致,可為其他病證的主癥選擇提供新的思路和方法。但由于本研究中臨床樣本量偏少,并具有明顯的區(qū)域性,故其結(jié)論存在一定的局限性,有待今后進(jìn)行深入的研究。