帥亞琦 李燕 陳月月 徐麗娜 鐘昕妤
摘? 要:隨著現(xiàn)代信息技術(shù)的飛速發(fā)展,人類社會開始進(jìn)入大數(shù)據(jù)時代,如何高效快捷地從海量的中醫(yī)醫(yī)案文本數(shù)據(jù)中挖掘出我們所需要的信息,從而更好地應(yīng)用于臨床工作,是目前亟待解決的問題。通過實(shí)驗(yàn)對慢性支氣管炎中醫(yī)醫(yī)案進(jìn)行研究,分析BERT、BILSTM、BILSTM-CRF和BERT-BILSTM-CRF四種模型的實(shí)體識別效果,結(jié)果表明,相比于其他模型,采用BERT-BILSTM-CRF模型可以更加準(zhǔn)確有效地識別出慢性支氣管炎中醫(yī)醫(yī)案的實(shí)體類別,其F1、Precision和Recall均優(yōu)于其他模型。
關(guān)鍵詞:數(shù)據(jù)挖掘;命名實(shí)體識別;中醫(yī)醫(yī)案;循環(huán)神經(jīng)網(wǎng)絡(luò)
中圖分類號:TP391.1;R2-03 文獻(xiàn)標(biāo)識碼:A 文章編號:2096-4706(2023)05-0145-05
Entity Recognition of Traditional Chinese Medical Cases of Chronic Bronchitis
Based on BERT-BILSTM-CRF
SHUAI Yaqi, LI Yan, CHEN Yueyue, XU Lina, ZHONG Xinyu
(School of Information Engineering, Gansu University of Chinese Medicine, Lanzhou 730000, China)
Abstract: With the rapid development of modern information technology, human society has begun to enter the era of big data. How to efficiently and quickly mine the information we need from the massive text data of traditional Chinese medicalcases, so as to better apply them to clinical work, which is an urgent problem to be solved at present. Based on the experimental study of traditional Chinese medicalcases of chronic bronchitis, the entity recognition effects of four models, BERT, BILSTM, BILSTM-CRF and BERT-BILSTM-CRF, are analyzed. The results show that compared with other models, the BERT-BILSTM-CRF model can more accurately and effectively identify the entity categories of traditional Chinese medicalcases of chronic bronchitis, and its F1, Precision and Recall are all better than that of other models.
Keywords: data mining; named entity recognition; traditional Chinese medical case; cyclic neural network
0? 引? 言
中醫(yī)醫(yī)案最早起源于周代,在明清時期,個人醫(yī)案專著大量增加,中醫(yī)醫(yī)案的撰寫量也達(dá)到了頂峰。中醫(yī)醫(yī)案的價(jià)值和意義不僅僅局限于現(xiàn)代西醫(yī)藥研究方法意義上的科學(xué),它也是祖國醫(yī)學(xué)上臨床傳承的重要形式。如何從海量的醫(yī)案信息中快速準(zhǔn)確地獲取用戶感興趣的知識已經(jīng)成為亟待解決的問題。本文所使用的技術(shù)手段稱為命名實(shí)體識別技術(shù),命名實(shí)體識別一直以來都是信息抽取、自然語言處理等領(lǐng)域中重要的研究任務(wù),本文通過命名實(shí)體識別技術(shù)識別出慢性支氣管炎中醫(yī)醫(yī)案中表示實(shí)體的成分,并對其進(jìn)行分類,從而更好地應(yīng)用于醫(yī)療輔助系統(tǒng)、智能診斷系統(tǒng)中,為中醫(yī)藥的數(shù)字化臨床信息發(fā)展提供技術(shù)支持。
1? 相關(guān)研究
近年來,隨著數(shù)據(jù)挖掘技術(shù)的日益成熟,將數(shù)據(jù)挖掘技術(shù)應(yīng)用于中醫(yī)藥領(lǐng)域成了現(xiàn)代數(shù)據(jù)挖掘技術(shù)研究的熱點(diǎn)話題,在中醫(yī)藥方面的研究也取得了優(yōu)異的成果。面對海量的中醫(yī)醫(yī)案知識,人的精力和時間是有限的,因此通過自然語言處理技術(shù)對醫(yī)案里的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,可以更加有效的提取出醫(yī)案里的隱性知識,并將其應(yīng)用于知識圖譜和知識問答等實(shí)際應(yīng)用中。
早期的實(shí)體識別主要是基于規(guī)則的方法,人工構(gòu)建,再從文本中尋找匹配這些規(guī)則的字符串以達(dá)到實(shí)體識別的目的[1]。但是規(guī)則的制定是有限的而實(shí)體是變換無窮的,所以這樣的方法越來越笨重。統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法需要人工選取詞性、依存句法依賴等可能對任務(wù)結(jié)構(gòu)有影響的特征作為模型的輸入[2],所以其命名實(shí)體識別效果也有待提高。研究學(xué)者們發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)模型可以自動學(xué)習(xí)句子特征,無需復(fù)雜的特征工程,并且可以通過神經(jīng)網(wǎng)絡(luò)自動挖掘數(shù)據(jù)的深層次特征進(jìn)行預(yù)測,所以眾多研究學(xué)者們開始將最新的深度學(xué)習(xí)技術(shù)應(yīng)用于NER問題上。Peters[3]等人在2018年首次提出了ELMo(Embeddings from Language Models)模型,但是該模型無法并行計(jì)算。在該模型的基礎(chǔ)上,Devlin[4]通過BERT模使用掩蔽語言模型實(shí)現(xiàn)了基于預(yù)訓(xùn)練的深度雙向表示,通過使用Transformer架構(gòu)中的Encoder模塊,使得BERT模型擁有了雙向編碼能力和強(qiáng)大的特征提取能力。而隨著目前的實(shí)體識別研究已經(jīng)將CNN、SVM、BERT等模型應(yīng)用于語言預(yù)處理,并在模型中引用注意力機(jī)制來提高實(shí)體識別準(zhǔn)確率[5]。
目前對于中醫(yī)醫(yī)案癥狀識別主要使用的是循環(huán)神經(jīng)網(wǎng)絡(luò)技術(shù),高佳奕[6]通過LSTM-CRF模型,應(yīng)用LSTM層結(jié)合預(yù)訓(xùn)練字向量抽取醫(yī)案的抽象特征,通過CRF進(jìn)行序列標(biāo)注,識別的F1值達(dá)到了0.85左右。李明浩[7]通過LSTM-CRF模型識別中醫(yī)醫(yī)案癥狀術(shù)語,在小規(guī)模訓(xùn)練集上的訓(xùn)練,使得F1值最高達(dá)到了0.78。肖瑞[8]基于BILSTM-CRF對中醫(yī)藥文本數(shù)據(jù)進(jìn)行挖掘,使得F1值達(dá)到了80.92%。本將BERT模型與BILSTM-CRF模型結(jié)合,利用兩者的優(yōu)勢對慢性支氣管炎中醫(yī)醫(yī)案進(jìn)行實(shí)體識別。
2? 資料與方法
2.1? 數(shù)據(jù)來源
本文研究的數(shù)據(jù)主要來源于《岳美中醫(yī)案集》《顏德馨臨床經(jīng)驗(yàn)輯要》《世中聯(lián)名老中醫(yī)典型醫(yī)案》等古今部分名老中醫(yī)的中醫(yī)醫(yī)案著作。其中使用了300多條醫(yī)案數(shù)據(jù)。在選定了這些數(shù)據(jù)后,刪除文本中的特殊字符以及無效信息。以句號作為間隔符將原醫(yī)案文本內(nèi)容進(jìn)行切分。
2.2? 序列標(biāo)注
命名實(shí)體識別是自然語言處理的一項(xiàng)最基本的任務(wù),其主要目的是從文本中識別出特定命名指向的詞匯。在本文中設(shè)定了6種實(shí)體類型,并將疾病名、癥狀、證候、治則治法、方藥和舌脈信息,依此記為DIS、SYM、SYN、TRE、PRE和DIA,通過BIO標(biāo)注,將B表示開始,I表示內(nèi)部,O表示非實(shí)體。本文對標(biāo)簽的類別以及特征進(jìn)行了分類,如表1所示。
在序列標(biāo)注建模方法和序列標(biāo)注體系下對于中文文本的命名實(shí)體識別模型就是要為序列中的每個變量預(yù)測出所屬的標(biāo)簽類別[9]。
3? 模型結(jié)構(gòu)
本文通過BERT-BILSTM-CRF模型進(jìn)行命名實(shí)體識別,該模型主要包括三個部分,首先是BERT預(yù)訓(xùn)練語言模型,慢性支氣管炎中醫(yī)醫(yī)案的非結(jié)構(gòu)化文本數(shù)據(jù)轉(zhuǎn)化為向量形式并提取出蘊(yùn)含在中醫(yī)醫(yī)案里的豐富語義特征,再通過BILSTM模型進(jìn)一步提取出醫(yī)案中的上下文特征,最后通過CRF添加約束條件,減少錯誤序列的產(chǎn)生,并輸出最終的標(biāo)記序列。
3.1? BERT預(yù)訓(xùn)練語言模型
BERT(Bidirectional Encoder Representation from Transformers)模型是一種語言預(yù)訓(xùn)練模型。該模型結(jié)構(gòu)如圖1所示。
本文將原始的醫(yī)案文本數(shù)據(jù)進(jìn)行數(shù)據(jù)篩選與標(biāo)注后,對標(biāo)注的文本數(shù)據(jù)進(jìn)行切分,然后進(jìn)行向量表示。Transformer結(jié)構(gòu)是BERT的關(guān)鍵部分,是基于注意力機(jī)制的深度網(wǎng)絡(luò),通過在同一個句子中計(jì)算每個詞與其他詞之間的關(guān)聯(lián)程度來調(diào)整權(quán)重稀疏矩陣,從而獲得詞的特征向量的表達(dá)。本文通過Transformer的Encoder層獲得具有上下文豐富語義特征的文本序列向量,然后輸出向量,,作為命名實(shí)體識別模型的Embedding層,輸入到BILSTM模型中。
3.2? BILSTM模型
LSTM(Long-Short Time Memory)模型最早由Hochreiter[10]
提出,是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)結(jié)構(gòu)中隱藏單元的內(nèi)部結(jié)構(gòu)十分復(fù)雜,通過引入記憶單元和門控記憶單元保存歷史信息、長期狀態(tài),使用門控來控制信息的流動,有效的實(shí)現(xiàn)了上下文信息的存儲和更新,如圖2所示。
每個LSTM單元都通過遺忘門、輸入門和輸出門三種結(jié)構(gòu)來控制信息狀態(tài),LSTM單元內(nèi)部的計(jì)算公式為:
ft =Sigmoid(Wf×[ht-1, xt]+bf)? ? ? ? ? ? ? ? ? ?(1)
it =Sigmoid(Wi×[ht-1, xt]+bi)? ? ? ? ? ? ? ? ? ?(2)
ot =Sigmoid(Wo×[ht-1, xt]+bo)? ? ? ? ? ? ? ? ? (3)
Ct =ft*Ct-1+it*tanh(Wc×[ht-1, xt]+bc)? ? ? ? ? ? ? (4)
ht =ot*tanh(Ct)? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (5)
如圖所示,LSTM的輸入有三個,當(dāng)前時刻輸入xt、上一時刻LSTM的輸出值ht-1以及上一時刻的單元狀態(tài)Ct-1;輸出有兩個,當(dāng)前時刻LSTM的輸出值ht和當(dāng)前時刻的單元狀態(tài)。LSTM模型通過三個門結(jié)構(gòu)實(shí)現(xiàn)了對信息狀態(tài)的選擇性輸出。其中,W和b表示權(quán)重和偏置項(xiàng),式(1)為遺忘門狀態(tài)更新公式,[ht-1, xt]表示把兩個向量組成的一個更長的向量。Sigmoid函數(shù)的作用是將門的輸出值限制在0到1之間,當(dāng)門輸出為0時,任何向量與之相乘都會得到0向量,這就相當(dāng)于什么都不能通過;輸出為1時,任何向量與之相乘都不會有任何改變,這就相當(dāng)于什么都可以通過[11]。
式(1)決定上一時刻的單元狀態(tài)Ct-1有多少保留到當(dāng)前時刻Ct;式(2)為輸入門的狀態(tài)更新公式,決定當(dāng)前網(wǎng)絡(luò)的輸出xt有多少保存到狀態(tài)單元Ct。式(3)為當(dāng)前時刻單元的狀態(tài)計(jì)算公式;式(4)(5)為輸出門的計(jì)算公式,決定控制單元狀態(tài)Ct有多少輸出到LSTM的當(dāng)前輸出值ht。顯然,當(dāng)前LSTM單元的隱藏狀態(tài)ht依賴于先前的隱藏狀態(tài)ht-1,但與下一個隱藏狀態(tài)ht+1不相關(guān),即信息僅在單向LSTM中向前流動。這使得LSTM模型存在梯度消失或梯度爆炸的現(xiàn)象。
2005年,GRAVES[12]根據(jù)LSTM和雙向RNN模型,提出了BILSTM模型,該模型可以同時使用時序數(shù)據(jù)中某個輸入的歷史和未來的信息,從而增加循環(huán)神經(jīng)網(wǎng)絡(luò)中可以利用的信息,使得模型具有更加強(qiáng)大的特征提取能力。本文在BERT預(yù)訓(xùn)練語言模型的基礎(chǔ)上使用了BILSTM模型,通過慢性支氣管炎醫(yī)案數(shù)據(jù)中的雙向語義信息即潛在的語義關(guān)系,優(yōu)化了循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)模型的迭代性問題,緩解了梯度消失或梯度爆炸的現(xiàn)象,提高了對序列數(shù)據(jù)的長期記憶能力。
3.3? CRF模型概述
條件隨機(jī)場(Conditional Random Fields,CRF)作為一種條件概率分布模型被用于命名實(shí)體識別。在命名實(shí)體識別領(lǐng)域,其最主要的功能上在多種可能的標(biāo)注序列中,挑選出一個概率最大的標(biāo)注序列作為我們對這句話的標(biāo)注。雖然BILSTM模型能夠輸出標(biāo)簽取值的概率值,但是直接用BILSTM模型輸出的標(biāo)簽有些并不是合理的,原因是未考慮標(biāo)簽與標(biāo)簽之間的關(guān)聯(lián)性,比如實(shí)體的頭部必不可能是I開頭,O標(biāo)簽后的下一個標(biāo)簽必不可能是I,B-Dis標(biāo)簽后面必為I-Dis等,因此在BILSTM模型后面加入CRF層加入約束機(jī)制,這樣就可以調(diào)整輸出的標(biāo)簽,使得標(biāo)簽的結(jié)果順序更加的合理,從而提高模型的準(zhǔn)確率。在本文任務(wù)中,主要應(yīng)用的是線性鏈條件隨機(jī)場,其原理如式(6)為[13]:
(6)
其中,Z(x)表示歸一化因子,Z(x)和s(x, y)的計(jì)算公式為:
(7)
s(x, y)=∑ i Emit(xi, yi)+Trans( yi-1, yi)(8)
其中,Emit(xi, yi)表示LSTM的輸出概率,Trans( yi-1, yi)表示對應(yīng)的轉(zhuǎn)移概率,也是CRF轉(zhuǎn)移概率對應(yīng)的數(shù)值。
4? 實(shí)驗(yàn)結(jié)果及分析
4.1? 評估指標(biāo)
本次命名實(shí)體識別任務(wù)通過查準(zhǔn)率(Precision,P)、召回率(Recall,R)和F1值作為飾演的評價(jià)指標(biāo)。其計(jì)算公式為:
(9)
(10)
(11)
其中,TP為實(shí)際為正被預(yù)測為正的樣本數(shù)量,表中FP為實(shí)際為負(fù)但被預(yù)測為正樣本數(shù)量,F(xiàn)N為實(shí)際為正但被預(yù)測為負(fù)的樣本的數(shù)量[14]。
4.2? 實(shí)驗(yàn)方案
本文首先對慢性支氣管炎醫(yī)案數(shù)據(jù)進(jìn)行了爬取,然后在眾多的醫(yī)案數(shù)據(jù)中,篩選出慢性支氣管炎中醫(yī)醫(yī)案數(shù)據(jù),刪除掉醫(yī)案中的數(shù)據(jù)來源等冗余信息,然后對醫(yī)案數(shù)據(jù)進(jìn)行分詞和BIO標(biāo)注,將標(biāo)注好的醫(yī)案數(shù)據(jù)輸入到命名實(shí)體識別模型中,進(jìn)行實(shí)體識別。為驗(yàn)證本文所使用模型在慢性支氣管炎中醫(yī)醫(yī)案的優(yōu)勢,與下列幾種模型進(jìn)行了實(shí)驗(yàn)對比。
4.2.1? BERT模型
實(shí)驗(yàn)使用的是Googel提供的預(yù)訓(xùn)練好的中文BERT模型,獲取上下文本中的豐富語義信息,采用Transformers進(jìn)行預(yù)訓(xùn)練,以此生成深層的雙向語言表征信息。本文所使用的BERT模型的相關(guān)參數(shù)設(shè)置為:學(xué)習(xí)率為0.001,12個編碼層,12個注意力機(jī)制和768個隱藏單元,預(yù)先迭代100個epoch測試,然后根據(jù)結(jié)果調(diào)參。
4.2.2? BILSTM模型
將標(biāo)注好的信息輸入到雙向的BILSTM模型,然后將前向和后向提取的字特征向量拼接到一起作為最終的字向量特征,最后輸入分類層,softmax函數(shù)后得到每個標(biāo)簽的分值,其中分值最大的就是該字的標(biāo)簽,用交叉熵作為損失,梯度下降方法更新整個模型參數(shù)。本文BILSTM模型的相關(guān)參數(shù)設(shè)置為:輸入層的batch_size為300,每個詞用128維的向量表示,隱藏層的維度為256,學(xué)習(xí)率為0.001,也用交叉熵?fù)p失。
4.2.3? BILSTM-CRF模型
雙向的BILSTM模型可以捕捉正向信息和反向信息,使得模型對文本的利用效果更佳的全面,然后通過CRF層添加約束條件,使得模型的y預(yù)測結(jié)果更加的精確減少錯誤序列的出現(xiàn)。本文所使用的BILSTM-CRF模型的相關(guān)參數(shù)設(shè)置為:輸入層的單句文本長度為300,每個詞用128維的向量表示,隱藏層的維度為256,學(xué)習(xí)率為0.001,也用交叉熵?fù)p失,優(yōu)化器選擇Adam優(yōu)化算法。
4.3? 實(shí)驗(yàn)結(jié)果對比及分析
本文的所有實(shí)驗(yàn)?zāi)P投际腔赑yTorch框架,使用GPU為GTX1650,為驗(yàn)證模型的效果,本文將BERT-BILSTM-CRF模型與BERT、BILSTM、BILSTM-CRF三種模型進(jìn)行對比,通過評價(jià)指標(biāo)來驗(yàn)證BERT-BILSTM-CRF模型的效果。實(shí)驗(yàn)對比結(jié)果如表2所示。
根據(jù)表2可以看出,本文所采用的BERT-BILSTM-CRF模型整體效果優(yōu)于其他模型。表中的所有實(shí)驗(yàn)數(shù)據(jù)是在不同的迭代次數(shù)下所取得最優(yōu)值,通過比較發(fā)現(xiàn),BERT-BILSTM-CRF模型在各個測量指標(biāo)上都能達(dá)到最優(yōu)值。從表中可以看出,BILSTM-CRF模型的效果比BILSTM模型的識別效果好,這是因?yàn)镃RF層不同于BILSTM模型,CRF計(jì)算序列時計(jì)算的是聯(lián)合概率,考慮的整個句子的局部特征的線性加權(quán)組合,優(yōu)化的是整個序列,而不是僅僅的將每個時刻的最優(yōu)拼接起來,因此,CRF層的添加使得BILSTM-CRF模型的整體效果優(yōu)于BILSTM模型。在表中,雖然BERT模型的識別效果不如BILSTM模型,但是BERT模型的動態(tài)詞向量的獲取能力很強(qiáng),在詞向量的表現(xiàn)上優(yōu)于BILSTM-CRF模型的embedding層,借助BERT預(yù)訓(xùn)練模型的優(yōu)點(diǎn),使得BERT-BILSTM-CRF模型的識別效果整體優(yōu)于BILSTM-CRF模型。BERT-BILSTM-CRF模型的評價(jià)指標(biāo)變化趨勢如圖3所示。
從圖中可以看出,該模型在迭代了100次后,三種評價(jià)指標(biāo)在一定范圍內(nèi)上下波動,開始出現(xiàn)震蕩,表明該模型訓(xùn)練趨于穩(wěn)定,不會出現(xiàn)大幅度波動。該模型的訓(xùn)練集損失函數(shù)和驗(yàn)證集損失函數(shù)如圖4所示。
從圖中可以看出,該模型在從0個Epoch開始,Loss開始大幅度下降,當(dāng)?shù)竭_(dá)100個Epoch后,開始趨于穩(wěn)定狀態(tài),也驗(yàn)證了圖三的評價(jià)指標(biāo)變化趨勢是在100個Epoch后模型的評價(jià)指標(biāo)開始在一定范圍內(nèi)上下波動,評價(jià)指標(biāo)沒有出現(xiàn)大幅度上升或下降。從圖四中可以看出,在150個Epoch后,隨著Epoch的增加,Dev_loss開始有上升趨勢,在圖三的同一Epoch上,評價(jià)也同時上升,這說明開始出現(xiàn)過擬合現(xiàn)象。在模型訓(xùn)練過程中,模型的狀態(tài)變化為從最開始的不擬合狀態(tài),進(jìn)入優(yōu)化擬合狀態(tài),當(dāng)隨著Epoch的增加,當(dāng)?shù)竭_(dá)一定程度時,神經(jīng)網(wǎng)絡(luò)開始出現(xiàn)過擬合現(xiàn)象。所以該模型的Epoch應(yīng)該設(shè)置為100~150次左右。
5? 結(jié)? 論
本文基于BERT-BILSTM-CRF模型對慢性支氣管炎中醫(yī)醫(yī)案進(jìn)行命名實(shí)體識別,通過該模型,實(shí)現(xiàn)了對慢性支氣管炎中醫(yī)醫(yī)案的實(shí)體識別并獲得了良好的效果。首先通過BERT預(yù)訓(xùn)練模型抽取出了豐富的文本特征,然后通過BILSTM模型提取出實(shí)體所需要的特征信息,最后通過CRF層計(jì)算出最優(yōu)的序列標(biāo)注,并輸識別結(jié)果。然后將該模型與BERT、BILSTM和BILSTM-CRF進(jìn)行對比實(shí)驗(yàn),通過對比我們發(fā)現(xiàn)BERT-BILSTM-CRF模型對慢性支氣管炎中醫(yī)醫(yī)案上的實(shí)體識別效果最好,其F1值、P值和R值相比于其他模型的都高。命名實(shí)體識別模型較多,但用于中醫(yī)藥相關(guān)命名實(shí)體識別模型數(shù)量微乎其微,構(gòu)建中醫(yī)藥相關(guān)命名實(shí)體識別模型,將更加有效地推動中醫(yī)藥文本挖掘發(fā)展。本文提出的方法解決了慢性支氣管炎中醫(yī)醫(yī)案實(shí)體識別效率一般的問題,也為深度挖掘慢性支氣管炎中醫(yī)醫(yī)案里的隱性知識提供了技術(shù)支撐。
參考文獻(xiàn):
[1] 吳信東,李嬌,周鵬,等.碎片化家譜數(shù)據(jù)的融合技術(shù)[J].軟件學(xué)報(bào),2021,32(9):2816-2836.
[2] 鐘華帥.基于深度學(xué)習(xí)的實(shí)體和關(guān)系聯(lián)合抽取模型研究與應(yīng)用[D].廣州:華南理工大學(xué),2020.
[3] PETERS M E,NEUMANN M,IYYER M,etal. Deep Contextualized Word Representations[J/OL].arXiv:1802.05365[cs.CL].[2022-10-03].https://arxiv.org/abs/1802.05365v1.
[4] DEVLIN J,CHANG M W,LEE K,et al. BERT:Pre-training of Deep Bidirectional Transformers forLanguage Understanding[J/OL].arXiv:1810.04805 [cs.CL].[2022-10-03].https://arxiv.org/abs/1810.04805.
[5] GAJENDRAN S,MANJULA D,SUGUMARAN V. Character level and word level embedding with bidirectional LSTM–Dynamic recurrent neural network for biomedical named entity recognition from literature[J/OL].Journal of Biomedical Informatics,2020,112[2022-10-02].https://linkinghub.elsevier.com/retrieve/pii/S1532046420302367.
[6] 高佳奕,楊濤,董海艷,等.基于LSTM-CRF的中醫(yī)醫(yī)案癥狀命名實(shí)體抽取研究[J].中國中醫(yī)藥信息雜志,2021,28(5):20-24.
[7] 李明浩,劉忠,姚遠(yuǎn)哲.基于LSTM-CRF的中醫(yī)醫(yī)案癥狀術(shù)語識別[J].計(jì)算機(jī)應(yīng)用,2018,38(S2):42-46.
[8] 肖瑞,胡馮菊,裴衛(wèi).基于BiLSTM-CRF的中醫(yī)文本命名實(shí)體識別[J].世界科學(xué)技術(shù)-中醫(yī)藥現(xiàn)代化,2020,22(7):2504-2510.
[9] 顧溢.基于BiLSTM-CRF的復(fù)雜中文命名實(shí)體識別研究[D].南京:南京大學(xué),2019.
[10] HOCHREITER S,SCHMIDHUBER J. Long Short-Term Memory [J].Neural computation,1997,9(8):1735-1780.
[11] 山夢娜.基于深度學(xué)習(xí)的遙測數(shù)據(jù)異常檢測[D].西安:西安工業(yè)大學(xué),2020.
[12] GRAVES A,SCHMIDHUBER J. Framewise phoneme classification with bidirectional LSTM and other neural network architectures [J].Neural Networks,2005,18(5-6):602-610.
[13] 楊云,宋清漪,云馨雨,等.基于BiLSTM-CRF的玻璃文物知識點(diǎn)抽取研究[J].陜西科技大學(xué)學(xué)報(bào),2022,40(3):179-184.
[14] 高經(jīng)緯,馬超,姚杰,等.基于機(jī)器學(xué)習(xí)的人體步態(tài)檢測智能識別算法研究[J].電子測量與儀器學(xué)報(bào),2021,35(3):49-55.
作者簡介:帥亞琦(1998—),男,漢族,山東濰坊人,碩士研究生在讀,主要研究方向:知識圖譜;通訊作者:李燕(1976—),女,漢族,甘肅蘭州人,教授,碩士研究生,主要研究方向:中醫(yī)藥數(shù)據(jù)挖掘、中醫(yī)藥知識圖譜;陳月月(1997—),女,漢族,山東濱州人,碩士研究生在讀,主要研究方向:知識圖譜;徐麗娜(1996—),女,漢族,甘肅定西人,碩士研究生在讀,主要研究方向:數(shù)據(jù)挖掘;鐘昕妤(1996—)女,漢族,浙江嘉興人,碩士研究生在讀,主要研究方向:數(shù)據(jù)挖掘。
收稿日期:2022-10-26