趙青,王丹,徐書世,張曉桐,王曉曦
(1.北京工業(yè)大學 信息學部,北京 100124; 2.紐約州立大學 賓哈姆頓大學,紐約 13902; 3.國家電網(wǎng)管理學院,北京 102200)
醫(yī)療電子病歷(electronic medical records, EMR)目前已經(jīng)成為實施疾病治療和醫(yī)療保健的基礎,它包含了大量與患者相關的病程記錄,因此被廣泛地應用于各個醫(yī)療保健相關的領域[1]。調(diào)查發(fā)現(xiàn),接近83%的醫(yī)生表示他們目前都在使用EMR系統(tǒng)或者準備使用[2]。在與EMR相關的語義信息挖掘任務中,命名實體識別(named entity recognition, NER)是基礎,也是至關重要的一個步驟,例如:知識圖譜構建[3]、文本檢索[4]、文本分類[5]和信息抽取[6]等領域中都需要識別命名實體。
命名實體識別可以看作是一個序列標注任務[7-8],通過提取出來的信息來查找實體并將其分為一組固定的類別。傳統(tǒng)實現(xiàn)NER的2種方法是基于規(guī)則的學習方法和有監(jiān)督的學習方法,其中有監(jiān)督的學習方法占主導地位。基于規(guī)則學習的解決方法是假設可用的訓練數(shù)據(jù)已全部標記(即所有包含在文檔中的實體都被標記)的前提下,再從文檔中找到候選實體的標簽序列。
目前,中文醫(yī)療領域的命名實體識別問題依然面臨很多挑戰(zhàn),主要原因如下:1)醫(yī)療電子病歷中大部分是半結構或非結構化的數(shù)據(jù),并且很多信息是敘述性的,無結構信息,不適用于單純利用語法結構上下文特征進行醫(yī)療概念的發(fā)現(xiàn)和抽取;2)醫(yī)學術語通常具有模糊性和表達不一致的特點,例如:“慢性阻塞性肺疾病”也可以縮寫為COPD(chronic obstructive pulmonary disease),這會造成特征維度高、計算量大;3)需要大量人工標注的語料庫作為訓練集,且大多數(shù)傳統(tǒng)NER方法是通過詞向量來提取特征的,這在中文醫(yī)療文本中會導致部分語義信息割裂,并且數(shù)據(jù)量越大消耗的人工標注量就越多,因此很難在現(xiàn)實中得到廣泛應用。
近年來,深度學習因其在圖像處理、音頻識別、自然語言處理等領域的優(yōu)異表現(xiàn)吸引了大量的關注,表現(xiàn)了其良好的圖像、音頻的特征信息抽取能力,同時在NLP(natural language processing)領域的應用也越來越多[9-10]。深度學習的主要特點是通過其自身的深層網(wǎng)絡結構來自主地學習更深層的特征及規(guī)律,因此可以大大減輕人工標注的時間,并且具有較強的魯棒性和泛化性。其中循環(huán)神經(jīng)網(wǎng)絡(recurrent neural network, RNN)是一個序列模型,它具有時序記憶的特點,能夠考慮詞與詞之間的順序,從而能將詞與詞之間的語義聯(lián)系體現(xiàn)出來,因此可以較好地應用于序列標注的任務中。目前,深度學習在NER任務中的應用并不少見,但大多數(shù)是關于英文醫(yī)療領域的,在中文領域中的成果尚不多見,仍需學者們不斷研究和擴展。
針對以上問題,本文提出了一種結合醫(yī)療本體語義知識和標注數(shù)據(jù)集的弱監(jiān)督方法來處理訓練語料標注不全的NER任務。首先,基于現(xiàn)有的醫(yī)療本體提取語義特征,并在語義特征的基礎上提取字符特征,再利用RNN模型時序記憶的特點來提取命名實體相關的上下文信息,并將提取的特征作為訓練模型RNN的輸入,最后通過softmax獲得中文醫(yī)療文本中的標簽序列。1)結合醫(yī)療領域廣泛存在的醫(yī)療本體進行醫(yī)療文本的語義概念特征抽取,將其與現(xiàn)有的詞與字向量特征進行融合在一起,通過基于RNN的弱監(jiān)督學習方法進行命名實體識別,提高了中文醫(yī)療命名實體識別的準確率。2)基于某醫(yī)院真實臨床文本數(shù)據(jù)集進行了實驗驗證,將本文提出的基于語義特征融合的弱監(jiān)督學習方法與現(xiàn)有概念實體識別方法進行了性能對比,對實驗結果進行了分析與討論。
在1996年的MUC-6會議上命名實體首次被提后,NER在英文領域的應用逐漸成熟?,F(xiàn)有的大多數(shù)NER工作是基于假設沒有領域本體知識的情況下,主要通過標注的訓練集來學習。例如Li等[11]訓練了條件隨機場(conditional random fields, CRF)和支持向量機(support vector machines, SVM)2種分類模型。結果表明,CRF的性能比SVM高。Lei等[12]構建并對比了CRF、SVM、最大熵馬爾可夫(MEMM)和結構化的支持向量機(SSVM)4種模型,并在醫(yī)療數(shù)據(jù)集中對4類實體進行了實體識別,其中SSVM的準確率最高。何林娜等[13]提出了一種基于特征耦合泛化(feature coupling generalization,F(xiàn)CG)的實體識別方法并結合CRF來自動的識別醫(yī)療文獻中的藥物名稱。
雖然CRF在大多數(shù)NER任務上都取得了較高的準確率,但是該方法的特征選擇過程較為繁瑣,隨著特征的增多模型會變得尤為復雜,從而造成召回率的急劇下降,可移植性差。近年來,基于深度學習的NER工作也相繼展開。Guillaume等[14]提出了一種基于長短時記憶網(wǎng)絡(long short term memory, LSTM)和CRF結合的命名實體識別方法,用來識別英文人名、地名等實體。Dong等[15]提出了利用卷積神經(jīng)網(wǎng)絡(convolutional neural networks, CNN)進行特征提取的方法來進行命名實體識別。Li等[16]使用RNN并結合詞字特征來構建醫(yī)療領域的命名實體識別模型。楊培等[17]提出了一種基于字詞特征并結合注意力機制的實體識別方法,該方法通過神經(jīng)網(wǎng)絡LSTM來訓練實體識別分類器,并采用CRF產(chǎn)生最后的實體標簽分類結果。
顯然,通過這些方法獲得的命名實體識別分類器的知識僅來源于作為訓練集的標注語料庫,從而造成其性能對大規(guī)模充分標注的數(shù)據(jù)有很強的依賴性。本文的工作充分考慮醫(yī)療領域大量醫(yī)療本體存在的事實和中文醫(yī)療文本自身的特點,通過從已有的醫(yī)療本體中獲取部分命名實體知識并與訓練集中已標注的知識相結合來進行序列學習分類器的構建,有效提高了準確率。
本文提出的基于循環(huán)神經(jīng)網(wǎng)絡的語義和字符向量結合的命名實體識別模型整體結構,如圖1所示。
圖1 基于RNN的語義和字符向量相結合的命名實體識別模整體結構Fig.1 The model architecture of combining semantic and character embedding based on RNN
1.1.1 語義向量特征表示
語義特征包含概念特征和詞特征2個部分。其中,概念是指由多個包含語義的單獨詞匯組成的一個特殊的領域術語,例如,慢性阻塞性肺疾病。詞是指一個單獨的語義詞匯,例如,困難。本文對于那些能夠從領域本體里映射出概念的,就提取概念特征;對那些不能提取概念的直接提取詞特征,最后通過CBOW(continuous bag-of-words model)模型提取語義特征。
1)概念特征表示。
由于醫(yī)療術語通常是由多個詞組成,僅考慮詞特征會使語義信息割裂,因此在本文的方法中加入了概念特征。首先,將所有稀疏標記的語料庫根據(jù)特殊符號切分成較短的漢子字符串(包括標點符號、數(shù)字和空格符)并去除停用詞;其次,將預處理后的字符串映射在構建好的醫(yī)療本體中,通過最大匹配法來提取本體中的概念;最后,采用一種基于本體計算概念特征相似度的方法來降低語義特征的維度,從而減少計算量。具體流程如算法1所示。
算法1概念特征提取
輸入:數(shù)據(jù)集D(包含已標注數(shù)據(jù)集和未標注數(shù)據(jù)集),本體O;
輸出:概念特征。
1)進行概念特征提??;
2)通過特殊符號將數(shù)據(jù)集D切分為漢字字符串L,L=(L1,L2,…,Ln);
3)將字符串L映射到本體O;
4)For 匹配字符串L中的每一個字符;
5)如果Lmax=Llen(Lmax為字符串的最大初始匹配長度,Llen為字符串的長度);
6) 則字符串整體為一個概念;
7) 如果Lmax 則i=1 (i為字符串中字符的位置); 8) 如果L1 9) 則i=i+1; 10)直到匹配到Li=Lmax, 11)End for 12) 將Lmax從L中抽取出來,并將Lmax的左右兩邊分為2個新的待切分字符串。 2)詞特征表示。 將詞輸入到模型中是深度學習方法在處理NLP任務時的首要步驟,因為它能夠從大量已標注和未標注的數(shù)據(jù)中學習到有用的語義和語法信息。傳統(tǒng)的機器學習方法通常采用詞袋模型(bag of words)表示詞向量特征。例如,One-hot Representation[18],該模型在處理離散數(shù)據(jù)時有一定的優(yōu)勢,但是它沒有考慮詞與詞之間的順序,因此,不能很好地體現(xiàn)出詞與詞之間的語義聯(lián)系,不適用于實體識別這樣的序列標注任務;其次,隨著數(shù)據(jù)量的增大,特征維度將會呈現(xiàn)爆炸式增長,會給后期的運算帶來很大的壓力。與高維、稀疏的詞袋模型相比,分布式詞向量表示具有低維,密集的特點更適用于實體識別任務。 目前常用的分布式詞向量表示模型有word2vec[19]和GolVe[20]等,本文采用word2vec中的CBOW模型來提取語義特征。CBOW的訓練目標使平均對數(shù)的概率最大化: (1) 式中:K為數(shù)據(jù)集D中目標詞的上下文信息;yi為數(shù)據(jù)集D中的語義。 1.1.2 字符向量特征表示 字符是中文中最自然的語言單位[21],與詞不同,字符主要關注的是詞語拼寫的特點而不是詞語本身的語義。由于中文不間斷的書寫特性,字符向量也能夠表達詞語的語義信息,例如:“瘦弱”一詞,既可以根據(jù)上下文來判斷該詞的語義特征,也可以通過該詞的字符“瘦”和“弱”來直接判斷語義。因此,在中文命名實體識別的任務中,字符向量不僅可以輔助判斷語義特征還可以通過字意達到預測新詞的效果。 本文采用CEW[22](character-enhanced word embeddding)模型來學習字符特征并結合語義特征一起進行訓練。該模型在word2vec的CBOW模型的基礎上進行了改進。結合語義向量和字符向量的CWE模型具體的計算方式為: (2) 式中:yi為語義Yi的語義向量;zk為yn中第k個字符向量;yn為語義Yi所包含的字符個數(shù);Qi由語義向量和其平均字符向量組合運算得出。 組合運算?有2個運算方式:相加或者結合計算。相加就是將語義向量和字符向量的平均值相加,其中語義向量和字符向量位數(shù)相等,如|yi|=|zk|。另一方面,也可以通過結合的方式,詞向量和字符向量的平均值相加得到Qi,并且Qi的向量維度為|yi|+|zk|。通過實驗證明,2種運算方法的性能差別不大,但在效率方面,相對于結合運算方法的維度高、復雜性大的特點,加法的運算效率更高。因此,本文采用了相加的運算方法來提取字符向量: (3) 循環(huán)神經(jīng)網(wǎng)絡(RNN)[23]是一個序列模型,每個神經(jīng)元不僅能夠沿層間向上傳遞信息,還可以傳輸給下一個序列,因此比其他的神經(jīng)網(wǎng)絡更適用于序列標注的任務。RNN具有一個隱藏單元,即: ht=σ(Wxt+Uht-1+b) (4) 式中:ht為t時刻的輸出,由輸入xt在t-1時刻的ht-1隱藏單元一起決定;σ為激活函數(shù),例如sigmoid、tanch或者ReLU (rectified liner unit)等;W、U為權重向量;b為偏差向量。 理論上,RNN是可以處理任意長度的序列標注任務。然而,實驗表明:由于RNN的存儲記憶功能過于簡單,隨著序列長度的增加會產(chǎn)生梯度消失或者梯度爆炸的問題,因此RNN不能夠學習與當前時刻較遠的信息。為了解決這個問題,LSTM和GRU (gate recurrent unit) 模型被相繼提出。 長短時記憶網(wǎng)絡(LSTM)在1997年被Hochreiter和Schmidhuber提出,主要為了解決RNN的梯度消失問題[24]。LSTM能夠處理無界任意長度的順序輸入,并返回輸入中每個步驟的序列信息。相對于傳統(tǒng)的RNN模型,LSTM可以處理長期依賴的問題,在每個時刻步驟中都包含了控制門(輸入門、遺忘門和輸出門),允許網(wǎng)絡忘記、記憶和更新上下文記憶,并減輕了梯度消失等問題。 (5) (6) ht=ot⊙g(ct) (7) it=σ(Wixt+Uiht-1+bi) (8) ft=σ(Wfxt+Ufht-1+bf) (9) ot=σ(Woxt+Uoht-1+bo) (10) 式中:it、ft、ot分別為時間節(jié)點t的輸入、遺忘、輸出門;σ為非線性函數(shù)。每一個控制門的參數(shù)都由2個矩陣和1個偏差向量組成,因此,3個控制門的矩陣參數(shù)分別為Wi、Ui、Wf、Uf、Wo、Uo,偏差參數(shù)為bi、bf、bo。LSTM的記憶單元參數(shù)分別為Wc、Uc和bc。這些參數(shù)在訓練和儲存時的每一步都進行更新。 門控神經(jīng)網(wǎng)絡(GRU)與LSTM的目標一樣,都是為了解決RNN長期記憶和反向傳播中的梯度消失或者爆炸問題。不同的是,GRU將LSTM中3個控制門整合為更新門和重置門[25]。GRU的整體結構為: (11) (12) zt=σ(Wzxt+Uzht-1+bz) (13) rt=σ(Wrxt+Urht-1+br) (14) 式(13)和式(14)分別代表GRU的2個控制門,其中zt代表更新門,rt代表重置門。GRU降低了LSTM的模型結構的復雜度,并且減少了訓練參數(shù)從而降低訓練難度,因此,GRU也是當前神經(jīng)網(wǎng)絡中流行的算法。本文同樣采取雙向GRU(BGRU)來獲得與當前時刻相關的上下文信息。 如圖1所示,本文的模型采用了深度學習模型RNN并結合了語義特征和字符特征,將現(xiàn)有的醫(yī)療本體與訓練集相結合來獲取命名實體知識。由于醫(yī)療術語大多是由多個詞組成,僅考慮詞特征會造成語義信息割裂,因此首先基于本體提取概念特征,對于不能提取概念特征的直接進提取詞特征,概念特征和詞特征統(tǒng)稱為語義特征。 由于在中文中,大部分字符本身就含有一些語義信息,例如:疼痛,即使該詞在訓練預料庫里從未出現(xiàn)過,也可以根據(jù)該詞的字面信息“疼”和“痛”來判斷語義,因此在語義特征的基礎上提取了字符特征。對于因醫(yī)療術語表達不一致所造成的特征維度高、計算量大的問題,本文通過一種基于本體計算概念特征相似度的方法來降低語義特征的維度,以而減少計算量。 本方法的主要目的是通過提取不同粒度的文本特征來提高命名實體識別的準確率。整體流程如算法2所示。 算法2基于RNN的弱監(jiān)督實體識別 輸入:數(shù)據(jù)集D(包含已標注數(shù)據(jù)集和未標注數(shù)據(jù)集),本體O; 輸出:命名實時識別的預測標簽。 1) For 對于切分好的語義集(包含概念集和詞集){G1,G2,…,GN}∪{C1,C2,…,CN}∈Y; 3) End For 4) For對于每一個語義特征 yi∈(y1,y2,…,yn)提取字符特征 6) End For 7) 將融合字符特征的語義特征映射到本體O; 8) If 有概念特征gi和gk對應本體概念oi∈O; 9) 通過余弦相似度計算gi和gk到本體概念oi的相似度距離; 10) Else If 小于相似度閾值α; 11)gi和gk分別為本體中的一個獨立概念(α的取值范圍在0.82~0.92,由于實驗中α為0.87時誤差最小,因此設為0.87); 12) Else If大于相似度閾值α; 13) 認為yj和yk為同一個概念; 14) 初始化:RNN訓練模型。 其中,1)、2)為CBOW的語義特征提取,4)、5)為用CEW的方法提取字符特征,7)、13)為基于本體計算概念特征相似度的方法來降低語義特征的維度,14)為啟用RNN相關模型來進行實體標簽預測。 本文采用了合作醫(yī)院的真實數(shù)據(jù)集,共15 589份電子病歷,包含普通外科、內(nèi)科等17類疾病。每份病歷包含入院、出院、病程3分記錄,由主訴、既往史、檢查、治療手段4部分組成。表1為電子醫(yī)療病歷數(shù)據(jù)集的構成。 表1 電子醫(yī)療病歷語料庫的統(tǒng)計Table 1 Statistics of EMR corpus 實驗中將電子醫(yī)療病歷數(shù)據(jù)集分為:訓練集(已標注)、訓練集(未標注)、驗證集(用于調(diào)整模型的超參數(shù))和測試集(用來評估模型的泛化性)。已標注數(shù)據(jù)集中的數(shù)據(jù)標注任務是由醫(yī)生與醫(yī)學相關專業(yè)的學生共同完成的。為了克服單獨測試結果過于片面以及訓練數(shù)據(jù)不足的問題,本文在訓練時采用5折交叉的方法,每次選取4個子集作為訓練集,1個子集作為驗證集,不斷重復,直到所有的子集都作為訓練集和驗證集并且完成訓練。 表2為模型的超參數(shù)設置,對于字符少于4位的進行補0操作,采用隨機梯度下降算法(stochastic gradient descent, SGD)對模型進行優(yōu)化。為了防止過擬合,在模型的每層加入了批次正則化(bath normalization),并且引入了dropout訓練策略[26]。大量實驗證明,該方法能夠在不同程度上有效防止過擬合現(xiàn)象。 表2 模型在實驗中的超參數(shù)Table 2 The hyper-parameters of model in experiment 在全部的數(shù)據(jù)集中,實體分為如下4類: 1)疾?。喊娮硬v中病人的現(xiàn)病史、既往史、家族病史和醫(yī)生根據(jù)患者的身體狀況做出的診斷。例如:慢性肺源性心臟病、急性阻塞性肺疾病、高血壓等。 2)癥狀:表示患者向醫(yī)生陳訴(或者別人代訴)的不適感覺或異常感覺,也包括嚴重程度的修飾成分。例如:喘息、頭痛、惡心等。 3)檢查:指通過實驗室檢查或體格檢查來判斷患者所患疾病。例如:胸部X線、血常規(guī)、肺功能等。 4)治療:指治愈疾病、緩解或改善癥狀所用的治療方法。例如:藥物、呼吸機、手術等。 考慮到實體識別也是一個序列標注任務,由于醫(yī)療實體通常由多個詞組成,因此本文采用廣泛應用的BIESO標簽機制:O表示不屬于任何概念的實體,B、I、E分別表示一個實體的第一個詞、中間詞和結尾詞。S代表該詞本身就是一個實體。 本文采用實體識別常用的幾個評價標準來衡量本文提出方法的有效性:準確率(precision)、召回率(recall)和F1值。 準確率指正確識別出的命名實體占總識別出的比例,召回率是指正確識別出的命名實體數(shù)量占文件中所包含的實體數(shù)量的比例。設置A為被成功識別出的實體數(shù)量,B為未被成功識別出的實體數(shù)量,C為模型錯誤地將非命名實體識別為命名實體的數(shù)量。 準確率為: (15) 召回率為: (16) 準確率和召回率并不總是同時達到峰值(它們甚至常常呈負相關)。為了在這2個標準之間做出權衡,實驗也采用了考慮這2個標準的F1測度來衡量實體識別的有效性: (17) 本文實驗分為3個部分:首先,對比CRF、Rule-base、SVM 3種傳統(tǒng)方法與本文提出的基于RNN的語義和字符特征結合的方法的性能,即分別對全部已標數(shù)據(jù)集和加入部分未標數(shù)據(jù)集的識別性能進行了對比;其次,為了說明概念特征在中文醫(yī)療命名實體識別任務中的重要性,對基于RNN的詞字向量結合模型和基于RNN的語義和字符向量結合模型進行了對比;最后,對RNN相關的3種模型(RNN、LSTM和GRU)的性能進行比較。 表3和表4為CRF、Rule-based、SVM方法與本文基于RNN的語義和字符向量結合的弱監(jiān)督方法在全部已標注數(shù)據(jù)集與加入未標注數(shù)據(jù)集的性能對比結果。實驗結果表明,基于RNN的方法優(yōu)于其他3種傳統(tǒng)方法。在全部已標數(shù)據(jù)集和加入未標數(shù)據(jù)集中,基于BGRU的詞字向量結合模型的效果是最好的,分別達到了86.35%和84.54%。不同的是,在表3全部已標注數(shù)據(jù)集中,本文方法只比傳統(tǒng)方法的準確率提高了1.5%~4.2%,這說明傳統(tǒng)方法在處理有監(jiān)督學習任務時也有不錯的表現(xiàn)。但是,由表4可以看出,在加入未標數(shù)據(jù)集后,本文方法比著傳統(tǒng)方法的準確率提高了2.2%~6.1%。由此可以看出,RNN相關模型的時序記憶功能對弱監(jiān)督的實體識別任務有著非常重要的影響。總的來說,在訓練語料庫不充分時本文方法表現(xiàn)更好,這十分有助于解決如今大量人工標注耗時耗力的問題。 表3 傳統(tǒng)方法與基于RNN的語義和字符向量結合模型在全部已標數(shù)據(jù)集上的性能對比Table 3 The comparison of the performance between the model of combining semantic and character embedding base on RNN and traditional methods on fully labeled dataset 表4 傳統(tǒng)方法與基于RNN的語義和字符向量結合模型在部分未標數(shù)據(jù)集上的性能對比Table 4 The comparison of the performance between combining semantic and character embedding base on RNN model and traditional methods on a part of unlabeled dataset 表5和表6分別描述了基于RNN的詞字向量結合模型和基于RNN的語義和字符向量結合模型在全部已標數(shù)據(jù)集上的性能對比。從實驗結果可以看出,語義和字符向量結合模型比詞字向量結合模型的準確率提高了0.62%。由此可以說明,在中文醫(yī)療領域的命名實體識別任務中概念特征也是非常重要的,因為它能夠防止語義信息割裂,保持語義的完整性。從表6中可以觀察到,在基于RNN的語義和字符向量結合模型中BiLSTM和BGRU的表現(xiàn)都比BRNN好,這也驗證了前文提到的RNN模型不能處理較長序列的任務,因為隨著序列長度的不斷增加會出現(xiàn)梯度消失或者爆炸的情況??偟膩碚f:基于RNN相關模型的弱監(jiān)督方法由于具有時序記憶功能更適合處理實體識別等序列標注的任務,尤其針對訓練語料庫不全的情況;在命名實體識別的任務中,概念特征能夠防止語義信息割裂,提高命名實體的準確率;在RNN相關的模型中,由于BRNN不能處理較長序列任務,因此比BiLSTM和BGRU方法的性能低。其次,本文提出的命名實體識別方法也存在一定的局限性:對領域本體的依賴性較高,本文提出的概念特征是從本體中獲取的,高質(zhì)量的語義特征抽取依賴于高質(zhì)量的外部領域本體庫。分類器構建的學習過程中計算復雜性較高,例如一個字符串在本體中可能會匹配出多個概念,而且特征融合造成特征維度的增加也會增加分類器構建的學習時間。由于目前公開的中文電子病歷數(shù)據(jù)集很難獲取到,因此本文的實驗部分只在合作醫(yī)院提供的數(shù)據(jù)集上進行。 表5 基于RNN的詞字向量結合模型Table 5 Model of combining word and character embedding base on RNN 表6 基于RNN的語義和字符向量結合模型Table 6 Combining semantic and character embedding base on RNN model 1)從醫(yī)療本體中提取概念特征可以保持中文術語語義的完整性,并降低人工標注成本,提高命名實體識別的準確率。 2)通過實驗表明,相比BRNN、BiLSTM和BGRU更擅長處理較長序列的文本。 3)基于真實臨床醫(yī)療文本挖掘的實驗驗證了本文提出的方法在實際應用中的有效性。 在未來的工作中,將會進一步考慮命名實體識別的時間復雜性,通過將一個字符串匹配出的多個相關概念進行相關度排序,來降低特征維度,從而提高分類器學習的速度;同時將繼續(xù)尋找適用于中文醫(yī)療文本挖掘的公開評測數(shù)據(jù)集進行更全面的性能比較和算法的改進研究。1.2 基于RNN的弱監(jiān)督實體識別模型
2 實驗和結果
2.1 數(shù)據(jù)集和參數(shù)設置
2.2 實體類型和標簽機制
2.3 評價標準
2.4 實驗結果
3 結論