趙壯 王一帆 楊濤
摘 要: 建立心系病證量化診斷模型。將心系疾?。ㄒ怨谛牟槔┏R娮C型相關(guān)的癥狀映射到多維癥狀空間,將辨證問題轉(zhuǎn)化為相似度計(jì)算問題,建立量化診斷模型,并對(duì)700條樣本進(jìn)行測(cè)試,分別計(jì)算Cosine、Tanimoto、Euclidean、Manhattan四種相似度,分析模型診斷準(zhǔn)確率。四種相似度計(jì)算模型對(duì)冠心病常見證型的診斷準(zhǔn)確率均在90%以上,能夠滿足診斷需求;權(quán)值選擇主癥1.00,次癥0.8-0.95,兼癥0.6-0.9,模型的效果較好。加權(quán)相似度計(jì)算可以用于常見病證的診斷。在今后的研究中,探索復(fù)雜證型的量化診斷問題,為中醫(yī)的數(shù)據(jù)化和智能化進(jìn)行有益探索。
關(guān)鍵詞: 相似度計(jì)算; 冠心??; 中醫(yī)辨證; 量化診斷
中圖分類號(hào):TP399 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1006-8228(2018)11-64-03
Abstract: To establish a quantitative diagnosis model of heart disease syndrome. This method maps the heart disease symptoms (taking coronary heart disease as an example) associated with common syndromes to the multidimensional symptom space, and the problem of syndromes differentiation is transform into similarity calculation to establish the quantitative diagnosis models. 700 samples were tested in the models, in which Tanimoto coefficient, Euclidean distance, Manhattan distance and Cosine similarity were calculated respectively to analyze the diagnostic accuracy. The results show that the accuracy of above models is all over 90%, which could meet the need of clinical diagnosis. The best weight of the main symptoms, secondary symptoms and accompanied symptom were set as 1.00, 0.8-0.95 and 0.6-0.9 separately. Therefore the weighted similarity calculation can be used for the diagnosis of common diseases. In the future research, the quantitative diagnosis of complex syndromes will be explored and the beneficial explorations will be conducted for the digitization and intelligence of traditional Chinese medicine.
Key words: similarity calculation; coronary heart disease; syndrome differentiation of Chinese medicine; quantitative diagnosis
0 引言
辨證論治是中醫(yī)認(rèn)識(shí)疾病和治療疾病的基本原則,是中醫(yī)學(xué)對(duì)疾病的一種特殊的研究和處理方法。辨證論治包括辨證和論治兩個(gè)環(huán)節(jié),其中辨證是論治(立法、處方、用藥)的前提和基礎(chǔ)[1]。中醫(yī)辨證的過程是在中醫(yī)理論的指導(dǎo)下,通過望、聞、問、切采集四診信息,分析疾病的病因、性質(zhì)、部位,以及邪正之間的關(guān)系,總結(jié)歸納證名的思維認(rèn)知過程。辨證結(jié)論指導(dǎo)論治方案,是影響臨床療效的關(guān)鍵因素之一,如何準(zhǔn)確有效的辨證已成為中醫(yī)臨床和教學(xué)的關(guān)注焦點(diǎn)。近年來,隨著信息技術(shù)的發(fā)展,特別是人工智能技術(shù)的興起,越來越多的學(xué)者開始關(guān)注中醫(yī)診斷數(shù)字化研究[2],利用計(jì)算機(jī)強(qiáng)大的計(jì)算和存儲(chǔ)能力,有望實(shí)現(xiàn)中醫(yī)辨證過程的數(shù)字化和智能化。
相似度計(jì)算是數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)中常用的基礎(chǔ)性計(jì)算,通過計(jì)算事物特征之間的距離或夾角等,衡量?jī)蓚€(gè)事物相似性[3]。相似度計(jì)算在生物信息學(xué)[4-5]、醫(yī)學(xué)診斷[6]方面有著廣泛應(yīng)用。本文以冠心病常見證型診斷為切入點(diǎn),將中醫(yī)辨證轉(zhuǎn)化為相似度計(jì)算問題,建立冠心病常見證型診斷的相似度計(jì)算模型,通過比較不同模型下的診斷效果,最終形成有效的辨證量化診斷方法。
1 中醫(yī)辨證問題的相似度計(jì)算模型轉(zhuǎn)化
假設(shè)在n維空間中建立以n個(gè)癥狀為坐標(biāo)的多維癥狀空間,出現(xiàn)某癥狀時(shí),對(duì)應(yīng)坐標(biāo)為1,否則為0。那么,一組癥狀可以對(duì)應(yīng)空間中的一個(gè)點(diǎn)[6]?!白C”是對(duì)疾病當(dāng)前狀態(tài)的高度概括,而概括的依據(jù)恰恰是患者表現(xiàn)出的癥狀和體征。因此,“證”也可以映射到多維癥狀空間的點(diǎn)。對(duì)于給定的一組癥狀,要判斷其為何種證型,這一問題可以轉(zhuǎn)化為n維癥狀空間中兩個(gè)點(diǎn)的相似性問題,即相似度計(jì)算。
在相似度計(jì)算過程中,首先需要建立多維癥狀空間,然后進(jìn)行癥狀對(duì)齊,最后選擇合適的相似度計(jì)算方法進(jìn)行計(jì)算,具體過程如下。
⑴ 多維癥狀空間構(gòu)建。假設(shè)證型S對(duì)應(yīng)的癥狀組A={x1,x2,…,xm-1,xm},患者的癥狀組B={x2,x4,…, xn-1,xn},進(jìn)行兩個(gè)癥狀組的“并”操作A∪B,得到共同的癥狀空間{x1,x2,…,xk,xk-1}。
⑵ 癥狀對(duì)齊。分別在癥狀空間中找到A、B的映射,含有某癥狀,則對(duì)應(yīng)癥狀為1,否則為0。A轉(zhuǎn)化為特征向量M=[m1,m2,,…,mk-1,mk],B轉(zhuǎn)化為特征向量N=[n1,n2,…,nk-1,nk]。
⑶ 癥狀加權(quán)。根據(jù)癥狀重要程度設(shè)定加權(quán)值,分別得到A、B加權(quán)向量W1=[s1,s2,…,sk-1,sk],W2=[t1,t2,…,tk-1,tk],對(duì)A和B特征矩陣中的各個(gè)癥狀進(jìn)行加權(quán)運(yùn)算,得到加權(quán)后的向量V1=M*W1T、V2=N*W2T。
相似度計(jì)算。計(jì)算V1和V2的相似度,以“歐氏距離”為例,計(jì)算
下面以案例來說明。
首先,假設(shè)氣虛證的癥狀組A={胸悶,氣短,動(dòng)則氣喘},而待辨證的癥狀組B={五心煩熱,盜汗,潮熱,胸悶},得到多維癥狀空間為:A∪B ={胸悶,氣短,動(dòng)則氣喘,五心煩熱,盜汗,潮熱}。
其次,進(jìn)行癥狀對(duì)齊,得到A、B的特征向量分別為:
M=[1,1,1,0,0,0], N=[1,0,0,1,1,1]
然后,設(shè)定權(quán)值,假設(shè)A、B對(duì)應(yīng)權(quán)值分別為{1,0.5,0.5,0,0,0}、{0.5,0,0,1,0.5,0.5},則加權(quán)后的向量為V1={1,0.5,0.5,0,0,0},V2={0.5,0,0,1,0.5,0.5}。
最后,計(jì)算相似度Dist(V1,V2)=2.5。
2 心系病證加權(quán)相似度計(jì)算模型比較
2.1 實(shí)驗(yàn)數(shù)據(jù)
⑴ 證型數(shù)據(jù)
胸痹是中醫(yī)病名,指以胸膺部窒塞疼痛為主的病證,與現(xiàn)代醫(yī)學(xué)“冠心病”癥狀類同。普通高等教育“十五”國家級(jí)規(guī)劃教材《中醫(yī)內(nèi)科學(xué)》[8]中將胸痹分為心血瘀阻證、氣滯心胸證、痰濁閉阻證、寒凝心脈證、氣陰兩虛證、心腎陰虛證、心腎陽虛證7個(gè)證型。采用這一分類方法,結(jié)合專家經(jīng)驗(yàn),整理冠心?。ㄐ乇裕┑某R娮C型(見表1)。
⑵ 測(cè)試數(shù)據(jù)
圍繞各個(gè)證型自動(dòng)生成測(cè)試樣本,具體如下:
① 將表1中各證型對(duì)應(yīng)的癥狀進(jìn)行統(tǒng)一,形成“癥狀條目池”;
② 選擇某一證型Y,將其癥狀組與“癥狀條目池”進(jìn)行“差”運(yùn)算,得到新的癥狀集合S;
③ 設(shè)定隨機(jī)種子n,從S中隨機(jī)抽取0~n個(gè)癥狀,形成附加癥狀組F;
④ 將證型Y對(duì)應(yīng)的原始癥狀X與附加癥狀F進(jìn)行“或”運(yùn)算,得到新的癥狀組N;
⑤ 將N隨機(jī)分成3份,分別對(duì)應(yīng)主癥、次癥、兼癥,形成一條測(cè)試樣本;
⑥ 重復(fù)②-⑤的過程,圍繞每個(gè)證型生成100條測(cè)試樣本,共700條。
2.2 實(shí)驗(yàn)過程
⑴ 設(shè)定不同的權(quán)值,分別計(jì)算Cosine、Tanimoto、Euclidean、Manhattan相似度[8],并按照相似度降序排列,其中Cosine、Tanimoto值越大,相似度越大,而Euclidean、Manhattan值越小,相似度越大。
⑵ 選擇相似度最高的證型作為模型診斷結(jié)果,比較其與原始診斷的差異,若一致則判斷診斷正確,否則,診斷錯(cuò)誤。
⑶ 分析比較各個(gè)模型的診斷正確率。
2.3 實(shí)驗(yàn)結(jié)果
表2是不同證型相似度模型的計(jì)算結(jié)果(權(quán)值:主癥=1.0,次癥=1.0,兼癥=1.0)。
3 分析及討論
從表2可以看出:Cosine、Tanimoto、Euclidean、Manhattan四種相似度計(jì)算方法的相似度最高的診斷結(jié)果與標(biāo)準(zhǔn)證型一致;Cosine、Tanimoto相似度為0-1的數(shù)值,避免了多病證計(jì)算時(shí)的歸一化問題。
從表3可以看出:相似度計(jì)算方法在測(cè)試樣本表現(xiàn)效果較好,準(zhǔn)確率均在90%以上,能夠滿足辨證需求;權(quán)值選擇主癥1.00,次癥0.8-0.95,兼癥0.6-0.9,模型的效果較好;Cosine、Tanimoto相較Euclidean、Manhattan,對(duì)權(quán)值的敏感性更好;
證型相似度計(jì)算模型辨證過程中需要與各個(gè)證型計(jì)算相似度,然后按照相似度降序排列,選擇相似度最高的證型作為診斷結(jié)果。針對(duì)冠心病常見證型這類少量病證數(shù)據(jù)的診斷效率較高,但當(dāng)病證較多,需要計(jì)算與所有證型的相似度,運(yùn)算效率較低。
建立合理規(guī)范的證型定義是相似度計(jì)算模型的前提和基礎(chǔ),然后在證型的定義中往往出現(xiàn)“或有癥”,如何有效的進(jìn)行上述癥狀的表達(dá)直接影響模型診斷效果。理論上,可以通過建立同一證型的不同癥狀組,或者通過權(quán)值來平衡“或有癥”的影響。
4 結(jié)束語
中醫(yī)辨證數(shù)字化和智能化研究是中醫(yī)診斷研究的重點(diǎn)和難點(diǎn)。如何將中醫(yī)辨證轉(zhuǎn)化為數(shù)學(xué)問題,從數(shù)據(jù)模型角度模擬中醫(yī)辨證過程,將是中醫(yī)辨證智能化研究的關(guān)鍵。本文將常見證型映射到多維癥狀空間中的點(diǎn),將辨證問題轉(zhuǎn)化為多維癥狀空間中不同點(diǎn)之間的相似度計(jì)算問題,并以冠心病常見證型診斷為例進(jìn)行有效性驗(yàn)證,模擬實(shí)驗(yàn)證實(shí)這一方法的準(zhǔn)確性和有效性。臨床癥情千變?nèi)f化,證型異同難辨,患者往往表現(xiàn)出證型間夾或復(fù)合的復(fù)雜證型,常見證型的相似度計(jì)算無法解決復(fù)雜證型的辨證問題。在接下來的研究中,進(jìn)一步探索復(fù)雜證型的量化診斷問題,為中醫(yī)的數(shù)據(jù)化和智能化進(jìn)行有益探索。
參考文獻(xiàn)(References):
[1] 朱文鋒.證素辨證學(xué)[M].人民衛(wèi)生出版社,2008.
[2] 徐瑋斐,劉國萍,王憶勤等.近5年中醫(yī)證候診斷客觀化研究述評(píng)[J].中醫(yī)雜志,2016.57(5):442-445
[3] 陳曦,成韻姿.一種優(yōu)化組合相似度的協(xié)同過濾推薦算法[J].計(jì)算機(jī)工程與科學(xué),2017.39(1):180-187
[4] 張書欣.生物信息學(xué)中運(yùn)用的計(jì)算智能技術(shù)[J].中國科技信息,2014.1(18):39-40
[5] 施曉秋,孔繁勝.計(jì)算機(jī)科學(xué)在生物信息學(xué)中的應(yīng)用[J].浙江工業(yè)大學(xué)學(xué)報(bào),2001.29(2):69-73
[6] 李鋒剛,倪志偉,郜巒.基于案例推理和多策略相似性檢索的中醫(yī)處方自動(dòng)生成[J].計(jì)算機(jī)應(yīng)用研究,27(1):544-547
[7] 楊濤,吳承玉.心系證素模糊識(shí)別數(shù)學(xué)模型初探[J].時(shí)珍國醫(yī)國藥,2013.24(8):2047-2048
[8] 周仲英.中醫(yī)內(nèi)科學(xué)[M].中國中醫(yī)藥出版社,2003.