郭榮傳 曾青霞 胡鑫才
摘 要: [目的 ]以太陰風(fēng)濕表證辨證模型為例,探討中醫(yī)辨證模型構(gòu)建方法。 [方法 ]以江西中醫(yī)藥大學(xué)中醫(yī)門診規(guī)范化培訓(xùn)改革試點基地的“岐黃中醫(yī)門診規(guī)培系統(tǒng)”中2600例中醫(yī)電子病歷為樣本數(shù)據(jù),在中醫(yī)理論指導(dǎo)下創(chuàng)建醫(yī)案癥狀關(guān)鍵字詞典,訓(xùn)練詞向量模型,將其作為BP神經(jīng)網(wǎng)絡(luò)的輸入,將2080例醫(yī)案作為訓(xùn)練數(shù)據(jù),剩余520份病例作為測試數(shù)據(jù)。 [結(jié)果 ]該辨證模型的準確率為88.29%。 [結(jié)論 ]本文利用BP神經(jīng)網(wǎng)絡(luò)技術(shù),構(gòu)建了太陰風(fēng)濕表證的系統(tǒng)中醫(yī)辨證模型,準確率較高,為名老中醫(yī)智能辨證提供了一條新的途徑,值得推廣。
關(guān)鍵詞:太陰風(fēng)濕表證;BP神經(jīng)網(wǎng)絡(luò);辯證模型
中圖分類號:TB???? 文獻標識碼:A????? doi:10.19311/j.cnki.16723198.2022.15.095
0 引言
中醫(yī)辨證論治,是中醫(yī)診治過程中最為核心的部分。它是指中醫(yī)師面對疾病時,根據(jù)中醫(yī)理論,通過收集四診(望聞問切)信息,然后根據(jù)中醫(yī)的辨證理論確定具體的證型。根據(jù)證型,確定治則,然后決定相應(yīng)的治療方法。根據(jù)治法,確定具體的方劑,最后觀察臨床療效,判斷辨證用藥的準確性。然而,在辨證論治的過程中,很多癥狀體征無法具體描述,給診斷的系統(tǒng)化和客觀化研究帶來了很大困難。
BP(backpropagation)神經(jīng)網(wǎng)絡(luò)是一種基于誤差逆向傳播算法訓(xùn)練的多層前饋神經(jīng)網(wǎng)絡(luò),應(yīng)用非常廣泛。它是在1986年由RineHart和McClelland為首的科學(xué)家團隊提出的一個的概念。BP神經(jīng)網(wǎng)絡(luò)主要根據(jù)生物大腦神經(jīng)元之間的聯(lián)系,建立輸入到輸出的非線性映射關(guān)系,從而模擬實現(xiàn)人類大腦學(xué)習(xí)的過程,并且能夠通過自身調(diào)節(jié)神經(jīng)元的權(quán)重,讓輸出結(jié)果接近于我們預(yù)設(shè)的期望值,相對傳統(tǒng)統(tǒng)計方法,有著更好地的系統(tǒng)適應(yīng)性、容錯性及自組織性等優(yōu)點。中醫(yī)的辯證論治是通過中醫(yī)師的望、聞、問、切來收集患者的各種癥狀體征信息,通常都是一些非線性數(shù)據(jù)。因此,通過大量的中醫(yī)電子病歷數(shù)據(jù)對神經(jīng)網(wǎng)絡(luò)模型進行訓(xùn)練,同時不斷調(diào)整模型中不同參數(shù)的權(quán)重,使模型的輸出結(jié)果更接近于真實。本文以太陽風(fēng)濕表證為例,利用中醫(yī)臨床門診真實的電子病歷數(shù)據(jù),通過BP神經(jīng)網(wǎng)絡(luò)技術(shù),構(gòu)建中醫(yī)辨證模型,為名老中醫(yī)辨證經(jīng)驗的挖掘提供一種新思路。
1 資料與方法
1.1 BP神經(jīng)網(wǎng)絡(luò)原理與算法
1943年,科學(xué)家根據(jù)大腦神經(jīng)元模型提出了人工神經(jīng)元模型,用于模擬大腦神經(jīng)元之間的信息傳輸過程,為了增強神經(jīng)網(wǎng)絡(luò)的表達能力,科學(xué)家又引入了激活函數(shù)。BP神經(jīng)網(wǎng)絡(luò)是一種多層前饋型神經(jīng)網(wǎng)絡(luò),通常包含三層或更多的神經(jīng)元網(wǎng)絡(luò)層,每個神經(jīng)元被激活就會產(chǎn)生一個輸出信號,通常整個網(wǎng)絡(luò)包括輸入層、隱含層和輸出層,每一層都可以含有多個神經(jīng)元。其中,輸入數(shù)據(jù)的多少決定了輸入層的神經(jīng)元個數(shù),隱含層和輸出層的神經(jīng)元個數(shù)可以進行動態(tài)調(diào)整。而隱含層數(shù)量也不止一層,每層之間是全連接的,即各個層的神經(jīng)元之間是相互連接的,如圖1所示。
BP神經(jīng)網(wǎng)絡(luò)算法是一種有導(dǎo)師的學(xué)習(xí)算法,整個網(wǎng)絡(luò)學(xué)習(xí)過程包括正向的信號傳播和誤差的反向信號傳播,然后為了是輸出值達到研究需要的期望值,需要不斷地調(diào)整神經(jīng)元的權(quán)重。正向信號傳播時,首先從輸入層輸入樣本數(shù)據(jù),經(jīng)過每個隱含層的相互傳遞,最后到達輸出層。如果輸出層的輸出值沒有達到我們的期望值,則計算它們之間的誤差,然后轉(zhuǎn)送誤差的反向傳播;如果輸出層的實際輸出值到達了研究需要錢期望值,則結(jié)束學(xué)習(xí)算法。誤差的反向傳播是將正向傳播時輸出的信號誤差從隱含層開始原路反向傳送、計算,直至開始的輸入層,在這個反向傳送的過程中,需要將誤差按照給定的算法分給各層的每個神經(jīng)元節(jié)點,獲得它的誤差信號,并將其作為調(diào)整各節(jié)點權(quán)值的依據(jù)。在上述信號的誤差反向傳播過程中,需要對傳遞函數(shù),進行求導(dǎo)計算。因為要進行微分運算,所以一般采用的激活函數(shù)為Sigmoid函數(shù)的對數(shù)、正切函數(shù)或線性函數(shù),而計算的過程一般使用梯度下降算法,通過調(diào)整各層節(jié)點的權(quán)值,最大限度地降低誤差信號值。信號正向傳播與誤差反向傳播過程中,反復(fù)調(diào)整節(jié)點的權(quán)重,直到網(wǎng)絡(luò)的輸出誤差達到預(yù)先設(shè)定的學(xué)習(xí)訓(xùn)練次數(shù),這個過程就是神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程和訓(xùn)練過程。
1.2 數(shù)據(jù)來源
為了提高系統(tǒng)辨證模型的準確率,實驗數(shù)據(jù)來自于中醫(yī)門診的臨床真實病例。電子病歷數(shù)據(jù)來源于江西中醫(yī)藥大學(xué)中醫(yī)門診規(guī)范化培訓(xùn)(簡稱規(guī)培)基地(岐黃國醫(yī)書院)的門診臨床電子病歷數(shù)據(jù),從基地的“中醫(yī)門診規(guī)培”平臺中選取2012年5月至2019年5月的中醫(yī)門診臨床電子病歷數(shù)據(jù)共2600份。將電子病歷數(shù)據(jù)導(dǎo)出為Excel文件,字段主要包含患者的編號、就診時間、主訴、現(xiàn)病史、中醫(yī)診斷、西醫(yī)診斷、治法和方劑、證型等。
1.3 數(shù)據(jù)預(yù)處理
由于電子病歷數(shù)據(jù)都是中醫(yī)醫(yī)師在門診臨床時錄入的,數(shù)據(jù)可能存在缺失、錯誤、不規(guī)范等問題,因此,在仿真構(gòu)建系統(tǒng)模型之前需要進行數(shù)據(jù)預(yù)處理。對特異值、缺失值進行處理,數(shù)據(jù)中的癥狀、中醫(yī)診斷、西醫(yī)診斷等不是按照國家中醫(yī)術(shù)語標準錄入,因此,在輸入數(shù)據(jù)建模之前,必須根據(jù)中國國家中醫(yī)藥管理局發(fā)布的“GB /T20348-2006中醫(yī)基礎(chǔ)理論術(shù)語”和“GB /T16751.2-1997中醫(yī)臨床診療術(shù)語-證候部分”規(guī)范化這些數(shù)據(jù)。
然后,對標準化后的數(shù)據(jù)進行標簽處理,即將各種癥狀進行數(shù)值化處理,初始化語料庫,然后采用Word2vec模型預(yù)訓(xùn)練詞向量,即嵌入矩陣,建立字典,即語料的詞匯表,且字典中的每個詞都能通過嵌入矩陣表示成一個固定長度的一維向量。對于給定的句子,構(gòu)建向量矩陣,作為模型的輸入?yún)?shù),即在預(yù)訓(xùn)練好的嵌入矩陣中查找每個詞對應(yīng)的詞向量,將給定的句子映射并進行縱向拼接。
1.4 模型參數(shù)設(shè)置
BP神經(jīng)網(wǎng)絡(luò)模型各層的參數(shù)設(shè)置,主要分為三層,如下:(1)輸入層參數(shù)設(shè)計:輸入層神經(jīng)元的個數(shù)與詞向量維度一致,本研究中選取自訴、主訴、脈診、舌診、望診、查體等字段的關(guān)鍵詞作為神經(jīng)元,共64個。(2)隱含層的設(shè)計:按照以往的經(jīng)驗,如果隱含層神經(jīng)元個數(shù)太少,不能充分訓(xùn)練網(wǎng)絡(luò)模型,會出現(xiàn)很多未學(xué)習(xí)過的樣本數(shù)據(jù)無法識別;但是如果設(shè)置的隱含層神經(jīng)元個數(shù)太多,會充分地訓(xùn)練網(wǎng)絡(luò)模型,不足之處便是模型的適應(yīng)性不高,例如當輸入?yún)?shù)與訓(xùn)練樣本變化時,除了會導(dǎo)致樣本不能識別外,有可能會增加模型的訓(xùn)練時間,出現(xiàn)過度擬合。因此,我們根據(jù)以往的經(jīng)驗,隱含層單元個數(shù)設(shè)置為16個。(3)輸出層參數(shù)設(shè)計:為了使輸出層的神經(jīng)元個數(shù)與期望輸出的神經(jīng)元個數(shù)一致,本模型研究的輸出神經(jīng)元個數(shù)為1個,即辯證結(jié)果是太陰風(fēng)濕表證,則輸出1;如果辯證結(jié)果不是太陰風(fēng)濕表證,則輸出為0。其模式示意圖,如圖2所示。
2 實驗結(jié)果與分析
本研究采用python軟件作為仿真實驗平臺,在python軟件中編寫B(tài)P神經(jīng)網(wǎng)絡(luò)程序,實現(xiàn)中醫(yī)辨證模型。將2600份的病歷數(shù)據(jù)以8∶2的比例劃分為訓(xùn)練集和測試集,其訓(xùn)練模型結(jié)果如表1。
通過2080份訓(xùn)練數(shù)據(jù)集模擬訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,用于模型訓(xùn)練的數(shù)據(jù)集包含輸入值與輸出值,通過不斷的輸入數(shù)據(jù)來動態(tài)調(diào)整隱含層神經(jīng)元權(quán)值,使輸出值盡可能達到我們的預(yù)期值。當實驗?zāi)P徒?jīng)過2080份電子病歷數(shù)據(jù)訓(xùn)練之后,使之達到最佳結(jié)果,最后通過結(jié)果以數(shù)據(jù)的形式獲取太陰風(fēng)濕表證的辯證結(jié)果。
如表1模型結(jié)果所示,本文利用運用BP神經(jīng)網(wǎng)絡(luò)技術(shù)建立了太陰風(fēng)濕表證的中醫(yī)辨證分類模型,其辨證分類的準確率(precision)達到了0.89,特異度為0.87,預(yù)測的一致率(Test-accuracy)達到了0.8829。實驗結(jié)果說明本研究中的BP神經(jīng)網(wǎng)絡(luò)中醫(yī)辯證模型在中醫(yī)辯證分類中研究的可行性。為了提高模型預(yù)測的準確率,可以增加訓(xùn)練集病歷數(shù)據(jù)的樣本數(shù)量以及對各層模型參數(shù)的優(yōu)化選擇,該模型的建立,為探索中醫(yī)辨證論治提供了一種全新思路,同時具有一定的適應(yīng)性。
然而,BP神經(jīng)網(wǎng)絡(luò)自身也存在著不足,比如固定的學(xué)習(xí)速率導(dǎo)致算法的收斂速度較慢,訓(xùn)練時間很長;神經(jīng)網(wǎng)絡(luò)中隱含層個數(shù)的選擇,一般是根據(jù)實際經(jīng)驗,通過實驗進行確定,沒有一個統(tǒng)一通用的參數(shù),導(dǎo)致網(wǎng)絡(luò)模型還會存在一定的冗余性,增加了模型的訓(xùn)練時間。
3 結(jié)束語
本文主要從太陰風(fēng)濕表證的真實電子病歷數(shù)據(jù)出發(fā),利用神經(jīng)網(wǎng)絡(luò)技術(shù)構(gòu)建了一個中醫(yī)辨證的系統(tǒng)模型,實驗結(jié)果說明了BP神經(jīng)網(wǎng)絡(luò)在中醫(yī)智能化辯證研究方面具有可行性。同時,增加模型輸入層訓(xùn)練樣本集的數(shù)量,模型的參數(shù)設(shè)置還可以進一步優(yōu)化。此外,該方法的建立,為構(gòu)建中醫(yī)智能化辯證研究提供了一種新思路和方法。
參考文獻
[1]劉龍,許玲,孫大志,等.一種胃癌模糊辨證模型的建立 [J ].中西醫(yī)結(jié)合醫(yī)學(xué)雜志,2008,6(11):11171121.
[2 ]聞新,張興旺,朱亞萍,等.智能故障診斷技術(shù):MATLAB應(yīng)用:北京航空航天大學(xué)出版社,2015,09.
[3 ]蔣亮.BP神經(jīng)網(wǎng)絡(luò)的優(yōu)化研究及應(yīng)用 [D ].南昌:南昌大學(xué),2014.
[4 ]王俊杰,陳景武.BP神經(jīng)網(wǎng)絡(luò)在疾病預(yù)測中的應(yīng)用 [J ].數(shù)理醫(yī)藥學(xué)雜志,2008,21(3):259262.
[5 ]司建波,楊芳,郭蔚瑩,等.基于BP神經(jīng)網(wǎng)絡(luò)的兩階段疾病預(yù)測模型 [J ].吉林大學(xué)學(xué)報:工學(xué)版,2013,(S1):481484.
[6 ]石鳳貴.基于自然語言處理的Word2Vec詞向量應(yīng)用 [J ].黑河學(xué)院學(xué)報,2020,11(07):173177.