王海燕 魯思博 孟軍
摘要:目的 ?建立基于人工神經(jīng)網(wǎng)絡(luò)編碼數(shù)據(jù)挖掘技術(shù)的中醫(yī)婦科病辨識(shí)數(shù)據(jù)分析方法。方法 ?檢索中國(guó)期刊全文數(shù)據(jù)庫(kù)(CNKI)、萬(wàn)方期刊數(shù)據(jù)庫(kù)、維普中文期刊數(shù)據(jù)庫(kù),收集1980~2019年公開(kāi)發(fā)表的關(guān)于婦科疾病多囊卵巢綜合癥(PCOS)的中醫(yī)治療與診斷方面文獻(xiàn),獲取婦科辨證分型數(shù)據(jù)集,采用ANN模型對(duì)數(shù)據(jù)集進(jìn)行量化分析。結(jié)果 ?通過(guò)模擬數(shù)據(jù)集ANN分析,建立了三層網(wǎng)絡(luò)結(jié)構(gòu)ANN模型,其中輸入層包含15個(gè)輸入神經(jīng)元、隱含層包含4個(gè)神經(jīng)元、輸出層包含6個(gè)神經(jīng)元,獲得了多囊卵巢綜合癥中醫(yī)婦科證素與證候之間的內(nèi)在邏輯關(guān)系。重復(fù)訓(xùn)練及測(cè)試結(jié)果顯示,中醫(yī)證型的預(yù)測(cè)匹配率為100.00%。對(duì)15個(gè)輸入?yún)f(xié)變量進(jìn)行了參數(shù)重要性分析顯示,精神狀況>周期>身體上部>皮膚>舌象>經(jīng)色>面色>大便8個(gè)癥狀的指標(biāo)規(guī)范重要性大于50%。結(jié)論 ?基于人工神經(jīng)網(wǎng)絡(luò)技術(shù)建立了一種婦科疾病中醫(yī)診療的證素-證型關(guān)系的神經(jīng)網(wǎng)絡(luò)方法,也為挖掘民族醫(yī)學(xué)信息數(shù)據(jù)進(jìn)行定性辨識(shí)、動(dòng)態(tài)及多維數(shù)據(jù)的處理與分析提供一種有效途徑。
關(guān)鍵詞:人工神經(jīng)網(wǎng)絡(luò);婦科疾病辨識(shí);數(shù)據(jù)挖掘;中醫(yī)證型
中圖分類號(hào):R71 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?DOI:10.3969/j.issn.1006-1959.2020.11.001
文章編號(hào):1006-1959(2020)11-0001-04
Abstract:Objective ?To establish a data analysis method for TCM gynecological disease identification based on artificial neural network coding data mining technology.Methods ?Retrieval of Chinese Journal Full-text Database (CNKI), Wanfang Journal Database, Weipu Chinese Journal Database, collection of publicly published literatures on TCM treatment and diagnosis of gynecological diseases polycystic ovary syndrome (PCOS) from 1980 to 2019, and access to gynecological syndromes Classification data set, ANN model is used to quantify the data set.Results ?Through ANN analysis of the simulation data set, a three-layer network structure ANN model was established, in which the input layer contains 15 input neurons, the hidden layer contains 4 neurons, and the output layer contains 6 neurons, and polycystic ovary syndrome is obtained The internal logical relationship between gynecological syndromes and syndromes in traditional Chinese medicine. Repeated training and test results show that the prediction matching rate of TCM syndromes is 100.00%. A parameter importance analysis of 15 input covariates shows that mental condition> period> upper body> skin> tongue> menstrual color> face color> stools are more than 50% of the index of 8 symptoms.Conclusion ?Based on artificial neural network technology, a neural network method of syndrome-syndrome relationship of traditional Chinese medicine diagnosis and treatment of gynecological diseases is established.
Key words:Artificial neural networks;Gynecological disease identification;Data mining;TCM syndromes
20世紀(jì)后期,人工智能(AI)技術(shù)蓬勃發(fā)展,數(shù)據(jù)挖掘技術(shù)也隨之不斷進(jìn)步,其中人工神經(jīng)網(wǎng)絡(luò)(artificial neural networks,ANN)是人工智能領(lǐng)域興起的研究熱點(diǎn)。ANN的概念最初由W.S. McCulloch和W.Pitts等人于1943年提出[1],其在模式識(shí)別、智能機(jī)器人、自動(dòng)控制、預(yù)測(cè)估計(jì)、生物、醫(yī)學(xué)、經(jīng)濟(jì)等領(lǐng)域已成功地解決了許多現(xiàn)代計(jì)算機(jī)難以解決的實(shí)際問(wèn)題,表現(xiàn)出了良好的智能特性[2]。目前,大多數(shù)研究主要關(guān)注點(diǎn)為利用ANN進(jìn)行卵巢早衰預(yù)測(cè)模型、舌脈象客觀化[3]、臨床異常病案的甄別[4]、老年癡呆診斷[5]、數(shù)據(jù)挖掘方法[6]等中醫(yī)證候分析,但關(guān)于基于人工神經(jīng)網(wǎng)絡(luò)技術(shù)辨識(shí)婦科疾病證素-證型邏輯關(guān)系的報(bào)道較少。基于此,本研究通過(guò)以婦科疾病多囊卵巢綜合癥(PCOS)為例,應(yīng)用數(shù)據(jù)挖掘技術(shù)整理研究病案,通過(guò)ANN方法探究中醫(yī)婦科病癥與證型間的內(nèi)在聯(lián)系,以期建立婦科疾病證素-證型推理模型,并為后期智能診斷進(jìn)行方法學(xué)探索。
1數(shù)據(jù)挖掘與建模分析方法
1.1醫(yī)案數(shù)據(jù)來(lái)源 ?ANN模型數(shù)據(jù)庫(kù)來(lái)源于中國(guó)期刊全文數(shù)據(jù)庫(kù)(CNKI)、萬(wàn)方期刊數(shù)據(jù)庫(kù)、維普中文期刊數(shù)據(jù)庫(kù)。檢索關(guān)鍵詞:“中醫(yī)”“POCS”“多囊卵巢綜合癥”“多囊卵巢綜合征”。檢索式:“中醫(yī)”AND(“多囊卵巢綜合癥”or“多囊卵巢綜合征”or“POCS”),檢索時(shí)間為1980~2019年公開(kāi)發(fā)表的中醫(yī)治療與診斷PCOS方面的文獻(xiàn)研究。納入標(biāo)準(zhǔn):①中醫(yī)治療POCS的臨床醫(yī)案,并且列明診斷;②年齡18~40歲;③列明疾病癥狀[7,8];排除標(biāo)準(zhǔn):①文獻(xiàn)醫(yī)案記錄不符合中醫(yī)、西醫(yī)診斷標(biāo)準(zhǔn);②文獻(xiàn)中未列示癥狀或列示癥狀不足;③重復(fù)出現(xiàn)的醫(yī)案;④綜述類文獻(xiàn)。收集有效文獻(xiàn)391篇,獲有效醫(yī)案112篇,歸納入圍文獻(xiàn)中常見(jiàn)癥狀17項(xiàng),對(duì)每種癥狀對(duì)應(yīng)屬性予以數(shù)字編碼,歸納主要證型6種,見(jiàn)表1。
1.2 ANN建模 ?采用SPSS 22.0系統(tǒng)進(jìn)行ANN建模,對(duì)中醫(yī)證型數(shù)據(jù)庫(kù)進(jìn)行挖掘分析,并采用中文字符定義各分析指標(biāo)。
1.2.1分析指標(biāo) ?癥狀:經(jīng)量、周期、經(jīng)色、面色、舌象、脈象、精神狀況、小便、大便、皮膚、形體、胃腸、道、頭面部、上部癥狀、下部癥狀、多毛、黑棘皮癥共17項(xiàng),作為輸入層初始系統(tǒng)協(xié)變量。證型:陽(yáng)虛肝郁證、肝郁血虛證、痰濕證、脾陰兩虛證、腎虛證、血癖證共6項(xiàng),作為系統(tǒng)輸出變量。
1.2.2婦科病癥候數(shù)據(jù)庫(kù) ?應(yīng)用SPSS 22.0軟件構(gòu)建數(shù)據(jù)表,將有效醫(yī)案112癥候編碼輸入數(shù)據(jù)表,建立SPSS數(shù)據(jù)集文件見(jiàn)圖1。
1.3 ANN分析 ?運(yùn)行SPSS 22.0軟件,選擇“分析”項(xiàng)下“神經(jīng)網(wǎng)絡(luò)”菜單,選取“多層感知器”BP模型進(jìn)行分析,網(wǎng)絡(luò)信息設(shè)置內(nèi)容見(jiàn)表2。
2模型分析測(cè)試結(jié)果
基于SPSS群體數(shù)據(jù)集文件,按照多層感知器(MLP)BP模型進(jìn)行設(shè)置,并通過(guò)模擬數(shù)據(jù)集ANN分析,建立了三層網(wǎng)絡(luò)結(jié)構(gòu)ANN模型,其中輸入層包含15個(gè)輸入神經(jīng)元、隱含層包含4個(gè)神經(jīng)元、輸出層包含6個(gè)神經(jīng)元,見(jiàn)圖2;重復(fù)訓(xùn)練及測(cè)試結(jié)果顯示,中醫(yī)證型的預(yù)測(cè)匹配率為100.00%,見(jiàn)表3。對(duì)15個(gè)輸入?yún)f(xié)變量進(jìn)行了參數(shù)重要性分析,結(jié)果顯示精神狀況>周期>身體上部>皮膚>舌象>經(jīng)色>面色>大便8個(gè)癥狀的指標(biāo)規(guī)范重要性大于50%,見(jiàn)表4。
3討論
建立基于人工神經(jīng)網(wǎng)絡(luò)編碼數(shù)據(jù)挖掘技術(shù)的中醫(yī)婦科疾病辨識(shí)數(shù)據(jù)模型分析方法,挖掘婦科辨證診斷過(guò)程中的有用信息,以獲得中醫(yī)婦科疾病診治證素之間、證素與證候之間的內(nèi)在邏輯關(guān)系,使未來(lái)對(duì)醫(yī)學(xué)信息數(shù)據(jù)挖掘進(jìn)行定性度量、動(dòng)態(tài)及多維數(shù)據(jù)的處理與分析效率成為現(xiàn)實(shí),從而促進(jìn)民族醫(yī)藥信息數(shù)據(jù)挖掘更加智能化、知識(shí)化[9]。
現(xiàn)代醫(yī)學(xué)疾病命名與中醫(yī)的病癥命名存在密切關(guān)聯(lián),本研究基于人工神經(jīng)網(wǎng)絡(luò)編碼數(shù)據(jù)挖掘技術(shù)分析PCOS的疾病證素與證型的邏輯關(guān)系,結(jié)果顯示疾病的辯證分型主要為陽(yáng)虛肝郁證、痰濕證、肝郁血虛證、脾陰兩虛證、血癖證、腎虛證類6類主要證候。PCOS與中醫(yī)“崩漏”“月經(jīng)后期”“閉經(jīng)”“不孕”等病癥有關(guān),涉及肝、脾、腎三臟,兼有痰濕、瘀血等病癥,主要因氣血運(yùn)行于三臟功能失調(diào)直接關(guān)聯(lián),長(zhǎng)期積聚形成痰濕、瘀血,因果循環(huán)再以這些病理產(chǎn)物為因,又進(jìn)一步壅塞于肌膚、胞宮而致病癥。中醫(yī)重視對(duì)情志因素的辨證分析,近年來(lái)有大量研究探索情志因素與多種疾病的相關(guān)性,在婦科疾病的診療中也同樣關(guān)注情志因素的重要影響[7]?!秲?nèi)經(jīng)》中首次提出的以情勝情原則“悲勝怒、喜勝憂……”;《河間六書(shū)》描述:“婦人天癸既行,當(dāng)以厥陰經(jīng)論之”;《傅青主醫(yī)學(xué)全書(shū)》中描述:以養(yǎng)肝平肝、解郁調(diào)經(jīng)立法,診治女性月經(jīng)不調(diào),婚久不孕,均表明PCOS的相關(guān)中醫(yī)病癥應(yīng)從“情”辨證論治,將調(diào)肝理氣之法貫徹治療始終。本研究結(jié)果顯示,PCOS癥狀重要性分別是精神狀況>周期>身體上部>皮膚>舌象>經(jīng)色>面色>大便,其指標(biāo)規(guī)范重要性均大于50%,在所有癥狀重要性指標(biāo)中“精神因素”居于首位,客觀角度驗(yàn)證了傳統(tǒng)中醫(yī)論述的可靠性。
目前關(guān)于分析各種中醫(yī)病癥與證型的關(guān)系多采用聚類分析、因子分析、決策樹(shù)分析、Logistic回歸分析等統(tǒng)計(jì)學(xué)方法。蔣文星等[8]采用決策樹(shù)C5.0算法分析PCOS“癥-證”的模型準(zhǔn)確性達(dá)到98%。本研究采用ANN分析訓(xùn)練集與測(cè)試集的結(jié)論一致,準(zhǔn)確性均達(dá)到100.00%,說(shuō)明ANN分析方法具有有效性,但由于研究所采用的數(shù)據(jù)集不包括臨床病案數(shù)據(jù),因此本研究方法的分析精度與同類研究比較僅有參考價(jià)值。此外,本研究未涉及中醫(yī)診斷證型與治療方劑的內(nèi)在邏輯關(guān)系模型,有待在后續(xù)研究中進(jìn)一步探討。
綜上所述,檢索挖掘已發(fā)表PCOS的中醫(yī)診療數(shù)據(jù),建立了三層網(wǎng)絡(luò)結(jié)構(gòu)ANN模型,確定了證素-證型數(shù)據(jù)的內(nèi)在邏輯關(guān)系,為中醫(yī)診斷的智能化提供了一種有效思路。
參考文獻(xiàn):
[1]袁金秋,劉雅莉,楊克虎.基于人工神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘技術(shù)在臨床中應(yīng)用進(jìn)展[J].圖書(shū)與情報(bào),2010(3):95-98.
[2]雷文平.試論人工神經(jīng)絡(luò)及其在機(jī)械工程領(lǐng)域中的應(yīng)用[J].中國(guó)機(jī)械,2015(24):217-218.
[3]鄒慧琴,李碩,陶歐,等.RBF神經(jīng)網(wǎng)絡(luò)在中醫(yī)藥領(lǐng)域中的應(yīng)用及其在SPSS 17.0軟件中的實(shí)現(xiàn)[J].中華中醫(yī)藥學(xué)刊,2015,33(2):336-338.
[4]Hassanzadeh H,Nguyen A,Karimi S,et al.Transferability of artificial neural networks for clinical document classification across hospitals:A case study on abnormality detection from radiology reports[J].J Biomed Inform,2018(85):68-79.
[5]Egerer E,Siemonsen S,Erbguth F.Acute diseases of the brain and heart:A reciprocal culprit-victim relationship[J].Med Klin Intensivmed Notfmed,2018,113(6):456-463.
[6] 許玉龍,盛夢(mèng)園,王哲,等.幾種數(shù)據(jù)挖掘方法用于中醫(yī)證候分析的對(duì)比研究[J].中國(guó)中醫(yī)藥信息雜志,2019,26(12):97-102.
[7]王玉蓉,曹云霞.精神、心理因素與多囊卵巢綜合征[J].中國(guó)婦幼健康研究,2004,15(5):303-305.
[8]蔣文星.數(shù)據(jù)挖掘在婦科PCOS中醫(yī)證候及用藥規(guī)律中的研究初探[D].廣州中醫(yī)藥大學(xué),2016.
[9]黃文金,姚明龍,葉云金,等.關(guān)聯(lián)規(guī)則在《中醫(yī)婦科學(xué)》證素診斷中的應(yīng)用[J].湖南中醫(yī)雜志,2015(8):148-149.
收稿日期:2020-04-10;修回日期:2020-04-22
編輯/杜帆