• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于注意力機制的生物醫(yī)學(xué)文本分類模型

      2022-05-06 02:06:46李啟行廖薇
      關(guān)鍵詞:注意力卷積向量

      李啟行,廖薇

      上海工程技術(shù)大學(xué)電子電氣工程學(xué)院,上海201620

      前言

      近年來,隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,如何讓數(shù)據(jù)更好的為人類服務(wù)變得越來越重要。醫(yī)療機構(gòu)每天都會涌現(xiàn)出大量的醫(yī)療數(shù)據(jù)資源,僅僅依靠人力已經(jīng)遠(yuǎn)遠(yuǎn)無法對這些數(shù)字資源進行有效分類,因此,實現(xiàn)生物醫(yī)學(xué)文本的自動分類已經(jīng)成為目前醫(yī)療健康領(lǐng)域重要的一部分,其中最基本的一個應(yīng)用就是網(wǎng)絡(luò)問診。網(wǎng)絡(luò)問診主要是患者通過互聯(lián)網(wǎng)的方式來查詢自身疾病并找尋答案,這個過程涉及到科室選擇。如何將患者的疾病文本進行準(zhǔn)確的分類,進而為患者正確匹配就診科室的類別,是目前的一個研究熱點。

      在對生物醫(yī)學(xué)文本進行分類時所用到的分類模型主要有兩大類,第一類是采用支持向量機(Support Vector Machine, SVM)[1-3]、隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)[4-5]和樸素貝葉斯[6]等傳統(tǒng)的分類方法,這種方法有兩個主要缺點,一是在訓(xùn)練時特征空間稀疏,并且特征的維數(shù)較高,這就導(dǎo)致模型的性能偏低,另一個缺點就是在文本特征的提取過程中更偏向于人工提取,整個過程費時費力[7-8]。第二類就是由卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)[9]與循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)[10]構(gòu)成的基于深度學(xué)習(xí)的分類模型,相對于第一類分類模型,該類模型具有很大的應(yīng)用優(yōu)勢。

      本文旨在解決對生物醫(yī)學(xué)文本進行科室分類問題,輸入為一系列疾病文本的描述句子,輸出為該疾病文本對應(yīng)的科室類別。為緩解現(xiàn)有文本分類模型架構(gòu)的局限性,提出一種基于注意力機制的雙層次文本分類模型(Dual layer R-CNN,DR-CNN),用于解決醫(yī)院中預(yù)檢分診的科室分類問題。在DR-CNN中,通過層次化的方式,結(jié)合詞嵌入、雙向長短期記憶網(wǎng)絡(luò)(Bi-directional Long Short-Term Memory, Bi-LSTM)、雙向門控循環(huán)單元網(wǎng)絡(luò)(Bi-directional Gate Recurrent Unit,Bi-GRU)、注意力機制以及CNN 的優(yōu)勢,來獲取生物醫(yī)學(xué)文本中的全局序列信息與局部特征,既考慮了文本的前向和后向上下文依賴關(guān)系,又進一步關(guān)注了文本中的重要特征。

      1 研究基礎(chǔ)

      文本分類技術(shù)是自然語言處理領(lǐng)域的核心內(nèi)容之一[11],主要任務(wù)是將文本快速準(zhǔn)確地分配到對應(yīng)的標(biāo)簽。目前,隨著深度學(xué)習(xí)方法的不斷發(fā)展,深度學(xué)習(xí)模型在文本分類上的應(yīng)用取得了很好的進展[12-14],在意圖識別、問答系統(tǒng)以及輿情分析等多個領(lǐng)域都有著廣泛的應(yīng)用[15-17]。

      CNN 與RNN 在對疾病文本進行文本分類的相關(guān)研究中較為常見,這是由于CNN 可以提取疾病文本中的局部特征,RNN 可以提取疾病文本中的全局序列信息。盡管RNN 適用于對文本特征的提取,但是當(dāng)文本數(shù)據(jù)中存在長期依賴關(guān)系時,會出現(xiàn)梯度爆炸或消失的問題[18],為解決這一問題,長短期記憶網(wǎng)絡(luò)(LSTM)和門控循環(huán)單元網(wǎng)絡(luò)(GRU)被引入。同時考慮到上下文,Bi-LSTM 和Bi-GRU 被提出,通過組合前向與后向隱藏層,可以更好地解決順序建模問題[19]。

      劉勘等[20]構(gòu)建一種基于CNN 的文本分類模型,并將該模型用于輔助解決醫(yī)院科室分配問題,結(jié)果表明了單一深度學(xué)習(xí)模型的有效性,解決了醫(yī)院分診的實際問題。張強強等[21]提出了一種基于CNN和SVM的疾病癥狀分類模型,模型結(jié)合了CNN與SVM的優(yōu)勢,最終通過與傳統(tǒng)特征提取方法的對比實驗得出,基于深度學(xué)習(xí)的分類模型具有更高的準(zhǔn)確率。陳德鑫等[22]通過構(gòu)建基于混合深度學(xué)習(xí)模型CNNBi-LSTM,來探究模型對醫(yī)療數(shù)據(jù)的實體抽取結(jié)果,并用對比實驗證明了使用混合模型比單模型取得更好的效果。雖然Bi-LSTM 和Bi-GRU 在文本分類中得到了廣泛的應(yīng)用,但它們不能集中提取文本中上下文信息中的重要部分,同時增加了文本特征的維度,使得模型難以優(yōu)化。

      2 DR-CNN模型的構(gòu)建

      2.1 模型結(jié)構(gòu)

      本文所提的DR-CNN 模型結(jié)構(gòu)如圖1所示,以疾病文本作為輸入,科室類別作為輸出,實現(xiàn)端對端的中文文本分類任務(wù)。整個模型可以分為以下4 個部分。(1)詞嵌入層:將分詞后的疾病文本向量化表示;(2)第一層次:該部分包括Bi-LSTM+Attention 與Bi-GRU+Attention 兩個模塊,獲取文本序列的上下文語義信息,同時引入注意力機制來關(guān)注文本中的重要特征;(3)第二層次:該層次由CNN構(gòu)成,獲取文本序列的局部特征,通過最大值池化降低特征空間的維數(shù);(4)Softmax 層:對融合后的特征進行分類,獲取分類結(jié)果。

      圖1 DR-CNN文本分類模型Figure 1 DR-CNN text classification model

      2.2 文本表示

      詞向量的生成方式一般分為兩種,一種是隨機生成的,另一種是通過神經(jīng)語言模型學(xué)習(xí)到的,后者生成的詞向量包含了不同詞語之間的語義聯(lián)系,可以進一步增強文本表示的表達能力。本文使用Google 開源推出的Word2Vec 工具包進行詞向量訓(xùn)練,Word2Vec 中包含CBOW 和Skip-gram 兩個模型,這兩個神經(jīng)語言模型均屬于淺層神經(jīng)網(wǎng)絡(luò),在對生物醫(yī)學(xué)文本數(shù)據(jù)庫中的文本使用結(jié)巴分詞工具處理后,使用Word2Vec中的Skip-gram模型進行詞向量的預(yù)訓(xùn)練。Skip-gram 模型簡單來說就是通過目標(biāo)詞來預(yù)測上下文,同時可以學(xué)習(xí)到詞語與詞語之間的聯(lián)系。假設(shè)一個句子S的長度為N,整個文本可以向量化表示為下式:

      2.3 第一層次

      模型的第一層次采用Bi-LSTM 和Bi-GRU 兩個并行通道對任意長度的文本序列進行處理,提取出前后兩個方向的依賴關(guān)系。我們使用GRU 和LSTM同時學(xué)習(xí)文本的長序列特征和短序列特征,并在兩個并行通道中引入注意力機制來強化模型的特征提取能力。

      LSTM 是一種特殊的RNN,主要為了解決RNN面臨的梯度爆炸或消失等問題。每個LSTM 單元由3 個非線性門組成,包括遺忘門、輸入門和輸出門,這些門有各自的功能,遺忘門決定從單元中需要遺忘哪些信息,輸入門決定將哪些信息更新為單元狀態(tài),輸出門決定整個單元的哪些部分被輸出。整個過程中的節(jié)點狀態(tài)由式(2)~(7)決定:

      其中,σ表示Sigmoid 函數(shù),ft、it、ot分別表示t時刻的遺忘門、輸入門與輸出門的節(jié)點操作,W為權(quán)重矩陣,b為偏置向量,ht-1表示前一步產(chǎn)生的狀態(tài),ct-1表示上一步輸出的單元狀態(tài),ct是當(dāng)前單元的狀態(tài),xt和ht為時間t的輸入向量和隱藏狀態(tài)向量,運算符?表示逐元素乘積。

      GRU 是LSTM 的一個變體,它只有更新門和重置門兩個門,其中更新門結(jié)合了LSTM的遺忘門與輸入門,GRU 相對于LSTM 來說更簡單,更新和重置的過程見式(8)~(9):

      其中,σ為Sigmoid函數(shù),W和U表示權(quán)重矩陣,b表示偏置向量,xt為第t層的輸入,ht-1表示上一時刻的狀態(tài)。重置門決定什么時候應(yīng)該忽略當(dāng)前的隱藏狀態(tài),更新門決定應(yīng)該傳遞到當(dāng)前狀態(tài)的信息量。候選狀態(tài)和當(dāng)前狀態(tài)ht可以表示為:

      其中,運算符?表示逐元素乘積,zt為更新門獲取的信息表示當(dāng)前候選狀態(tài),其他同上。

      標(biāo)準(zhǔn)的LSTM 與GRU 網(wǎng)絡(luò)均為單向的神經(jīng)網(wǎng)絡(luò),這就表明當(dāng)前的狀態(tài)只能按從前往后的順序來進行輸出,但對于文本數(shù)據(jù)來說,當(dāng)前時刻的輸出與過去和未來的整體信息均存在聯(lián)系,因而本文采用包含前向隱藏層與后向隱藏層的Bi-LSTM 與Bi-GRU 來處理兩個方向的序列,雙向網(wǎng)絡(luò)結(jié)構(gòu)圖如圖2所示。Bi-LSTM前向隱藏層的輸出為,后向隱藏層的輸出為,Bi-GRU 前向隱藏層的輸出為后向隱藏層的輸出為,則Bi-LSTM 的輸出HtL與Bi-GRU的輸出HtG可以表示為:

      圖2 雙向網(wǎng)絡(luò)結(jié)構(gòu)圖Figure 2 Structure diagram of bidirectional neural network

      注意力機制可以被用來為不同的詞賦予不同權(quán)重,因為文本中不同的詞語對文本所表達的意思有著不同的貢獻,不同的權(quán)重可以體現(xiàn)出每個詞語對整個句子語義的貢獻程度。通過注意力機制來捕獲句子中詞語之間的句法特征或者語義特征,可以進一步提高模型對文本的理解。對Bi-LSTM 和Bi-GRU兩個并行層添加注意力機制的數(shù)學(xué)計算公式如下:

      其中,Ws為權(quán)值矩陣,ui為Ht的注意力隱層表示,αi是ui通過Softmax 轉(zhuǎn)換后的歸一化權(quán)值,然后通過將權(quán)值αi與隱藏層的輸出Ht進行點乘與累加操作,最后將Bi-LSTM 和Bi-GRU 兩個并行層的輸出進行合并,合并過程如下式,得到第一層次的輸出T:

      其中,tf.concat 的作用是對TLSTM與TGRU進行拼接操作,axis = 1 表示對TLSTM與TGRU進行橫向拼接,不改變詞向量的維度,只改變詞向量的個數(shù),因而大大增加了模型捕獲文本特征的能力。

      2.4 第二層次

      該層次由CNN 模型構(gòu)成,CNN 模型主要由輸入層、卷積層以及池化層組成,其中卷積層為CNN模型的核心,用于提取局部特征,本模型采用兩個不同尺寸的卷積核作為卷積層,分別為CNN1 與CNN2。池化層位于卷積層之后,可以對高維特征進行降維操作,本模型采用最大值池化(Max-pooling)來提取特征值。取卷積核W=[w0,w1,…,wβ-1],卷積過程的數(shù)學(xué)計算公式如下:

      其中,g為非線性激活函數(shù),本模型采用ReLU 激活函數(shù),b為偏置項,t表示卷積核滑動窗口的位置,Xt:t+β-1為窗口從t移動到t+β- 1所包含的詞向量矩陣。

      將第一層次輸出的結(jié)果T進行輸入,使用兩個不同尺寸的卷積核進行特征提取,并通過最大值池化的方法提取出對應(yīng)的文本特征C1與C2,最后將C1與C2進行拼接操作,可以得到輸出向量C:

      2.5 Softmax層

      全連接層將輸入的向量特征重新擬合,在全連接層之后引入Dropout 機制,防止訓(xùn)練過程中出現(xiàn)過擬合現(xiàn)象。接著將處理后的向量特征作為Softmax分類器的輸入,模型最終由Softmax 分類器輸出類別的概率分布。將x分類為類別j的概率公式如下:

      3 性能評測與分析

      3.1 實驗數(shù)據(jù)

      本文使用中文醫(yī)療對話數(shù)據(jù)集進行實驗,用來測試DR-CNN 文本分類模型的分類效果,該數(shù)據(jù)集來自網(wǎng)絡(luò)問診平臺,本文選用其中8個類別的樣本進行實驗,科室類別如表1 所示,每個類別選取5 000 條樣板作為訓(xùn)練集,500 條作為驗證集,1 000 條為測試集。

      表1 數(shù)據(jù)集類別統(tǒng)計Table 1 Data set category statistics

      3.2 實驗平臺與參數(shù)設(shè)置

      本文實驗環(huán)境配置如下:操作系統(tǒng)為Windows10,顯卡為Quadro M6000,CPU 使用的是Intel Xeon Silver 4114,開發(fā)框架、開發(fā)語言以及開發(fā)工具分別為TensorFlow-gpu 1.12.0、Python3.6 與Pycharm。

      本文模型參數(shù)如表2 所示,其中kernel_size 設(shè)為(3,4)表示兩個卷積核的尺寸分別為3 與4,使用Adam作為模型優(yōu)化器。

      表2 實驗參數(shù)設(shè)置Table 2 Experimental parameter setting

      3.3 實驗結(jié)果與分析

      3.3.1 模型性能分析 分類模型的評價指標(biāo)主要采用準(zhǔn)確率(Acc)、精確率(P)、召回率(R)和F1 值。為了驗證DR-CNN 模型在生物醫(yī)學(xué)文本分類任務(wù)上的分類效果,對DR-CNN 模型及其變體DR-CNN-A 模型進行測試,兩者的區(qū)別在于后者在第一層次內(nèi)未引入注意力機制。測試時使兩個模型的實驗參數(shù)保持一致,測試結(jié)果如圖3 所示,縱坐標(biāo)為這些類別在測試集上的精確率,單位為%。

      通過圖3 可以看出,DR-CNN 模型在該項測試中取得了很好的分類效果。其中5 個科室類別的精確率超過了95%,乳腺科與肝病科的分類精確率更是達到了97%以上,只有呼吸科的分類精確率處于85%以下,造成這種狀況的原因可以歸納為兩種,一是數(shù)據(jù)集中涵蓋了許多專業(yè)詞語,另一個就是數(shù)據(jù)集中包含了大量的非正式語言,這都使得模型不能充分的學(xué)習(xí)到相應(yīng)的文本特征,從而影響了分類性能。此外,從圖3中可以明顯的發(fā)現(xiàn)DR-CNN 模型比未引入注意力機制的DR-CNN-A 模型具有更好的分類效果,其中婦產(chǎn)科類別的精確率更是提高了4%以上。以上結(jié)果不僅證明了注意力機制可以改善模型的分類性能,更是體現(xiàn)了本文模型具有良好的分類效果。

      圖3 性能測試結(jié)果(精確率,%)Figure 3 Performance test results(Precision rate,%)

      3.3.2 各層次對模型性能的影響 為了更清楚的探究模型中兩個層次對模型性能的影響,本文在中文醫(yī)療對話數(shù)據(jù)集上設(shè)置對照實驗,分別設(shè)置單獨的層次一模型與層次二模型,測試結(jié)果如表3所示。

      表3 各層次對模型性能的影響(%)Table 3 Effect of each level on model performances(%)

      從表3可以看出,使用第一層次和第二層次的單模型對疾病文本進行分類時模型的分類性能偏低,這表明同時使用兩個層次對疾病文本進行特征提取時能夠?qū)W習(xí)到更加充分的特征。因此,上述測試結(jié)果更能說明本文所提出的DR-CNN模型具有很好的分類可行性。

      3.3.3 對比實驗分析 為了進一步驗證本文所提模型在文本分類方面的性能,本小節(jié)設(shè)置多個分類模型進行對比實驗,實驗均在中文醫(yī)療對話數(shù)據(jù)集上進行。本節(jié)設(shè)置的對比實驗,不僅包括了基于深度學(xué)習(xí)的單模型,也與其他的混合模型進行了對比?;€模型包括:CNN、LSTM、Bi-LSTM[23]、Bi-LSTM+Att 模型[24]、CNN-LSTM 模型[25]、Bi-LSTM-CNN+Att模型[26]。其中Bi-LSTM+Att模型在Bi-LSTM 模型的基礎(chǔ)上引入了注意力機制;CNN-LSTM 模型采用單通道的形式將CNN 與LSTM 進行結(jié)合;Bi-LSTMCNN+Att 模型結(jié)合了Bi-LSTM、CNN以及注意力機制的優(yōu)勢對文本進行特征提取,參數(shù)與DR-CNN 中對應(yīng)參數(shù)保持一致。實驗結(jié)果如表4所示。

      表4 各模型準(zhǔn)確率對比(%)Table 4 Comparison of accuracy among different models(%)

      從上述結(jié)果可以看出,本文所提模型與CNN、LSTM 等基于深度學(xué)習(xí)的單模型相比,準(zhǔn)確率分別提高了1.74%與2.83%,通過比較CNN-LSTM 模型與單模型的分類結(jié)果,可以清晰的證明CNN 與RNN 結(jié)合后的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),更能夠充分提取文本中的關(guān)鍵特征。對比模型Bi-LSTM+Att 與模型Bi-LSTM的測試結(jié)果,分類準(zhǔn)確率、召回率以及F1值分別提高了1.15%、1.19%以及1.17%,證明注意力機制的引入可以大大改善模型的分類效果。將本模型DR-CNN的測試結(jié)果與模型Bi-LSTM-CNN+Att的測試結(jié)果進行對比,DR-CNN 模型的分類準(zhǔn)確率、召回率以及F1值高達91.45%、91.45%以及91.55%,模型DR-CNN第一層次是由雙層的Bi-LSTM 與Bi-GRU 構(gòu)成,并在其中引入了注意力機制,對比測試結(jié)果,本模型的準(zhǔn)確率比Bi-LSTM-CNN+Att 模型提高了0.64%,由此證明了Bi-LSTM 與Bi-GRU 結(jié)合后可以顯著地提升模型的特征提取能力。綜上所述,通過在同一數(shù)據(jù)集下與基線模型的分類效果進行比較,進一步驗證了本文所提出的DR-CNN 模型在進行文本分類任務(wù)時有更好的性能。

      4 結(jié)束語

      本文旨在解決對生物醫(yī)學(xué)文本進行科室分類問題,利用深度學(xué)習(xí)模型,進一步縮小預(yù)檢分診時分配對應(yīng)科室的誤差,輸入的是一系列疾病文本的描述句子,輸出為該疾病文本對應(yīng)的科室類別。為解決現(xiàn)有文本分類模型架構(gòu)的局限性,提出一種基于注意力機制的生物醫(yī)學(xué)文本分類模型(DR-CNN)。該模型通過層次化的方式,結(jié)合詞嵌入、Bi-LSTM、Bi-GRU、注意力機制以及CNN的優(yōu)勢,來獲取生物醫(yī)學(xué)文本中的上下文關(guān)聯(lián)信息與局部特征。通過與其他文本分類模型進行對比實驗,結(jié)果表明,本文所提模型取得了更好的分類效果。在接下來的研究中,可以從數(shù)據(jù)庫的完善、文本分類模型的優(yōu)化以及分診系統(tǒng)的構(gòu)建出發(fā),進一步解決患者初檢時能快速找到對應(yīng)科室的實際問題。

      猜你喜歡
      注意力卷積向量
      向量的分解
      讓注意力“飛”回來
      基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
      聚焦“向量與三角”創(chuàng)新題
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      “揚眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      A Beautiful Way Of Looking At Things
      向量垂直在解析幾何中的應(yīng)用
      向量五種“變身” 玩轉(zhuǎn)圓錐曲線
      乐东| 吴江市| 固始县| 抚州市| 仁怀市| 清涧县| 叶城县| 丁青县| 太和县| 微山县| 上栗县| 蓬莱市| 特克斯县| 阳春市| 花垣县| 慈利县| 西乌| 施甸县| 美姑县| 醴陵市| 登封市| 灯塔市| 边坝县| 安图县| 宜兴市| 金平| 崇左市| 黄陵县| 凤山县| 吉林市| 新蔡县| 泰宁县| 庆云县| 凤翔县| 余江县| 金门县| 常德市| 邯郸市| 张家港市| 建水县| 三明市|