• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于特征增強(qiáng)的中醫(yī)本草命名實體識別方法

      2024-05-31 00:00:00馬月坤吳國仲
      關(guān)鍵詞:中草藥

      DOI:10.3969/j.issn.10001565.2024.02.011

      摘" 要:傳統(tǒng)中醫(yī)本草文獻(xiàn)含有豐富的中醫(yī)知識,是中醫(yī)理論研究的重要載體.為了更好地挖掘中醫(yī)本草知識,精準(zhǔn)地實現(xiàn)中醫(yī)本草文獻(xiàn)命名實體識別任務(wù),提出了一種基于特征增強(qiáng)的Bert-BiGRU-CRF中醫(yī)本草命名實體識別模型,使用特征融合器拼接Bert生成的詞向量與實體特征作為輸入,以雙向門控循環(huán)單元(bi-directional gated recurrent unit,BiGRU)為特征提取器,以條件隨機(jī)場(conditional random fields,CRF)進(jìn)行標(biāo)簽預(yù)測,通過特征增強(qiáng)的方法更好地識別中醫(yī)本草的藥名、藥性、藥味、歸經(jīng)等實體及其邊界信息,完成中醫(yī)本草命名實體任務(wù).在中醫(yī)本草數(shù)據(jù)集上的實驗結(jié)果表明,融入特征的模型F1值達(dá)到了90.54%,證明了所提出的方法可以更好地提高中醫(yī)本草命名實體識別精度.

      關(guān)鍵詞:命名實體識別;中草藥;特征增強(qiáng);詞典信息

      中圖分類號:TP391.1;R271.14" 文獻(xiàn)標(biāo)志碼:A" 文章編號:10001565(2024)02019909

      Research on named entity recognition of traditional Chinese medicine based on feature enhancement

      MA Yuekun1,2, WU Guozhong1

      (1. Hebei Key Laboratory of Industrial Intelligent Perception, Institute for Artificial Intelligence, North China University of Science and Technology, Tangshan 063210, China;2. Beijing Key Laboratory of Knowledge Engineering in the Field of Materials, Institute for Computer and Communication Engineering, University of Science and Technology Beijing, Beijing 100083, China)

      Abstract: Traditional Chinese medicine (TCM) herbal literature contains rich knowledge of TCM and is an important carrier of theoretical research in TCM. In order to better explore the knowledge of TCM herbal literature and accurately achieve the task of named entity recognition in TCM herbal literature, a Bert-BiGRU-CRF named entity recognition model for TCM herbal literature based on feature enhancement is proposed, which uses a feature fusion tool to concatenate the word vector generated by Bert with entity features as input, With Bi directional gated recurrent unit (BiGRU) as the feature extractor and Conditional random field (CRF) as the tag prediction, the method of feature enhancement is used to better identify the entities and their boundary information such as the name, property, taste and meridian tropism of TCM herbs, and complete the task of naming entities of TCM herbs. The experimental results on the dataset of TCM herbs show that the F1 value of the model incorporating features reaches 90.54%,

      收稿日期:20230110;修回日期:20230426

      基金項目:河北省三三三人才項目(A201803082)

      第一作者:馬月坤(1976—),女,華北理工大學(xué)教授,博士,主要從事自然語言處理. E-mail:mayuekun@163.com

      proving that the proposed method can better improve the accuracy of named entity recognition in TCM herbs.

      Key words: named entity recognition; Chinese herbal medicine; feature enhancement; dictionary information

      命名實體識別是自然語言處理研究的一個重要方向,主要是從非結(jié)構(gòu)化的文本中識別出對應(yīng)實體[1]。例如,在中醫(yī)本草中可以識別出藥名、藥性、藥味等相應(yīng)實體.肖瑞等[2]為了從中醫(yī)藥文本中抽取知識,使用神經(jīng)網(wǎng)絡(luò)模型對中醫(yī)醫(yī)案文本進(jìn)行知識挖掘,完成對醫(yī)案實體及其類別的識別.李學(xué)良[3]考慮傳統(tǒng)分詞結(jié)果導(dǎo)致中醫(yī)藥命名實體識別效果不理想,采用字符集的ALBert替代傳統(tǒng)詞向量作為輸入,在中醫(yī)藥命名實體識別效果表現(xiàn)更佳,但是沒有解決中醫(yī)藥實體邊界模糊的問題.目前,在中醫(yī)本草命名實體識別過程中還存在一些困難:中醫(yī)本草專業(yè)知識性強(qiáng),具有高度的領(lǐng)域特性,傳統(tǒng)的分詞方法容易分詞錯誤引起誤差傳播;中醫(yī)本草中實體邊界不清晰,會導(dǎo)致模型預(yù)測邊界錯誤,識別的精度不高.

      針對上述問題,本文提出了基于特征增強(qiáng)的中醫(yī)本草命名實體識別模型,具體而言包括:1)設(shè)計了一個特征融合器,其作用是將字符和實體類型特征進(jìn)行拼接融合.2)將特征融合器的輸出信息輸入到BiGRU中進(jìn)行特征提取,可以更好地確定實體及其邊界信息,解決實體邊界不清晰的問題,減少了無關(guān)詞對模型的干擾,提高模型識別效果.

      1" 相關(guān)工作

      1.1" 命名實體識別

      中醫(yī)本草命名實體識別任務(wù)為本草知識抽取奠定了基礎(chǔ),也為其下游任務(wù)作出了關(guān)鍵性鋪墊,由于中醫(yī)本草命名實體識別的重要性,所以吸引了大量工作者投入其中,并且已經(jīng)提出了許多解決方案.包括:基于規(guī)則、詞典、統(tǒng)計機(jī)器學(xué)習(xí)、深度學(xué)習(xí)4類,其中基于規(guī)則的方法是最早期的方法[4],但是很難窮舉出所有規(guī)則來建立命名實體識別的結(jié)構(gòu),并且工作成本較高,不能適應(yīng)數(shù)據(jù)的更新.基于詞典的方法需要手工構(gòu)造規(guī)則或詞典,根據(jù)規(guī)則或詞典使用匹配的方法處理文本,但是,它無法處理詞典中未包含的實體,并且通常會導(dǎo)致召回率低.例如,隱馬爾可夫模型[5](hidden Markov model,HMM)、支持向量機(jī)[6](support vector machines,SVM)、CRF(conditional random fields)[7]等基于統(tǒng)計機(jī)器學(xué)習(xí)的方法,其目的是為給定的輸入句子找到最佳標(biāo)簽序列.這些統(tǒng)計學(xué)習(xí)方法依賴于預(yù)定義的特征,這使得開發(fā)成本昂貴,且需要進(jìn)行大量的試錯實驗.然而,基于深度學(xué)習(xí)的方法自動學(xué)習(xí)海量數(shù)據(jù)的特征,并且在學(xué)習(xí)過程中,為了提高學(xué)習(xí)效率和結(jié)果的準(zhǔn)確性,對訓(xùn)練模型參數(shù)進(jìn)行優(yōu)化,避免人工選擇特征時的主觀性和偶然性.

      近年來隨著自然語言處理的發(fā)展,具有CRF層的雙向長短期記憶網(wǎng)絡(luò)[8](bi-directional long short-term memory, BiLSTM)因其在許多中文命名實體識別數(shù)據(jù)集上展現(xiàn)出良好的性能而備受關(guān)注,為了提高BiLSTM-CRF模型的性能,研究了word2vec、Glove、ELMo和Bert等詞嵌入方法.在這些詞嵌入方法中,與傳統(tǒng)方法相比,Bert獲得了更好的詞向量表示.因此在開放領(lǐng)域語料庫上預(yù)訓(xùn)練的Bert已應(yīng)用于許多中文命名實體識別任務(wù).Qu等[9]為了對中醫(yī)領(lǐng)域的文本進(jìn)行命名實體識別,使用Bert學(xué)習(xí)上下文的特征并構(gòu)建了Bert-BiLSTM-CRF模型,以中醫(yī)文本作為數(shù)據(jù)集進(jìn)行命名實體識別,與其他模型相比,提高了總體的性能.文獻(xiàn)[10-11]使用了BiGRU神經(jīng)模型,結(jié)果簡單,計算效率高,在實體識別領(lǐng)域有一定的效果.然而中醫(yī)本草類文本存在許多特殊術(shù)語和專業(yè)描述,導(dǎo)致傳統(tǒng)的命名實體識別方法效果較差.

      1.2" 特征增強(qiáng)的命名實體識別方法

      除了詞嵌入方法,其他一些方法對于改進(jìn)中醫(yī)本草命名實體識別任務(wù)也很重要,比如引入詞典特征功能.由于中醫(yī)本草中包含大量專業(yè)術(shù)語,實體邊界的識別比較困難.對于自然語言文本來說,具有挑戰(zhàn)性的任務(wù)是根據(jù)語義對其進(jìn)行切分和選擇適當(dāng)?shù)脑~匯.如果在數(shù)據(jù)預(yù)處理的過程中出現(xiàn)了詞匯切分和語句切分的錯誤,那么會對后續(xù)的文本處理和語義特征提取產(chǎn)生連帶問題,從而妨礙模型對正確語義的學(xué)習(xí)和訓(xùn)練,所以使用包含專業(yè)術(shù)語的高質(zhì)量詞典對于中醫(yī)本草命名實體識別模型提取領(lǐng)域知識的實體非常有用.例如,謝靖等[12]利用詞典對句子進(jìn)行分割,并將帶有字符嵌入的分割嵌入輸入到BiLSTM-CRF模型中,提高模型識別效果.陳淑振等[13]針對使用跨度的辦法找出文本中存在嵌套實體的問題時,很難劃分跨度邊界情況,提出了使用多詞融合的方法,融入Bert中,再通過跨度的守衛(wèi)字符劃分跨度邊界信息,有效地提升了識別準(zhǔn)確率.李寶昌等[14]將詞匯信息拼接到字信息的方法增強(qiáng)文本特征表示,達(dá)到特征增強(qiáng)的效果,使得命名實體識別的效果更好.趙萍[15]將字符向量與詞信息嵌入向量融合作為模型輸入,并提出了融合詞信息的注意力自適應(yīng)命名實體識別模型,結(jié)果是模型的精度大幅提高.雷迪[16]為了獲取詞級信息并將文本內(nèi)部存在的詞匯信息匯集到單個字的信息上,采用了Lattice結(jié)構(gòu).然后Lattice根據(jù)情況選擇合適的字或詞,再將這些信息輸入到模型中學(xué)習(xí),在一定程度上解決了中醫(yī)藥醫(yī)案命名實體識別中實體邊界難劃分的問題.但是仍舊存在實體不清晰的問題,例如很多無關(guān)噪聲對模型的干擾,這是由于中醫(yī)本草專業(yè)性強(qiáng),特征表示不夠充分,所以融入實體類型特征可以更好地完成中醫(yī)本草命名實體識別任務(wù).

      2" 模型結(jié)構(gòu)

      針對通用領(lǐng)域中文命名實體識別難以解決中醫(yī)本草實體邊界模糊的問題,本文提出了基于特征增強(qiáng)的中醫(yī)本草命名實體識別模型,模型結(jié)構(gòu)如圖1所示.該模型由輸入表示層、連接層、特征表示層和解碼層組成,其中輸入表示層的作用是生成字符語義特征,連接層是由特征融合器構(gòu)成,將實體類型特征與字符語義特征拼接,特征表示層是將連接層的輸出信息進(jìn)行特征提取,最后在解碼層預(yù)測每個字符的標(biāo)簽.

      2.1" 輸入表示層

      輸入表示層由Bert預(yù)訓(xùn)練模型構(gòu)成,Google提供了2種基本的Bert模型:Bert-Base和Bert-Large,但是Bert-Large參數(shù)很多,因此預(yù)訓(xùn)練成本也就相對較高,所以Bert-Base結(jié)構(gòu)的版本是更好的選擇.

      Bert預(yù)訓(xùn)練模型解決了傳統(tǒng)靜態(tài)詞向量方法的缺點,并且預(yù)訓(xùn)練的模型包含豐富的先驗知識,可以提高命名實體識別任務(wù)的效果[17-18].Bert預(yù)訓(xùn)練模型在2個方向上使用Transformer結(jié)構(gòu)對一個單詞進(jìn)行編碼,又根據(jù)上下文的語義關(guān)系來表示該單詞在上下文中的具體語義.Bert模型的輸入由詞、句子和位置嵌入向量3部分相加組成,并使用幾個特殊的符號:[CLS]符號表示句子的開頭,[SEP]符號表示2個句子之間的分隔,[UNK]符號用于表示未知字符.

      Bert的工作機(jī)制是:首先通過分詞得到待訓(xùn)練的文本序列,隨機(jī)屏蔽序列中的部分詞,并在序列中添加[CLS]、[SEP]等特殊標(biāo)簽.將得到的3部分Embeddings向量輸入到二元Transformer中提取序列特征,得到具有豐富語義特征的序列向量.本文將字符序列X=(x1,x1,x2,…,xn)輸入到輸入表示層經(jīng)過Bert生成字符序列向量.

      2.2" 連接層

      在中醫(yī)本草命名實體識別過程中,由于語料的高度專業(yè)性,存在實體邊界不清晰的問題,并且會導(dǎo)致模型預(yù)測邊界錯誤,識別精度不高.因此,本節(jié)設(shè)計了一個特征融合器,將詞典中實體特征與詞向量特征拼接并輸入到中醫(yī)本草命名實體識別模型中,以增強(qiáng)模型的特征表示.

      對于一個序列X=(x1,x1,x2,…,xn),為每個字符xi構(gòu)造一個特征向量di,然后將特征向量di融入中醫(yī)本草命名實體識別模型中.

      2.2.1" 特征向量構(gòu)造

      本文所使用詞典中的詞匯來源于搜狗官方詞庫以及清華大學(xué)開放中文詞庫提供的中醫(yī)本草領(lǐng)域?qū)I(yè)詞典,共收集中醫(yī)詞匯113 260個,命名為D.詞典D實體級別構(gòu)造成,但是序列是以字符級別標(biāo)記.由于一個實體可能具有多個字符,因此如何在字符級別中表示實體特征是關(guān)鍵性問題.首先,提供一個句子X和一個外部詞典D,使用n-gram特征模板根據(jù)xi的上下文構(gòu)造文本段,特征模板如表1所示.其次,如果n-gram模板中的文本段出現(xiàn),并且它是D中的本草命名實體,則生成一個二進(jìn)制值來指示,然后使用ti,k,j來表示xi的第k個n-gram模板中第j個實體類型對應(yīng)的輸出的二進(jìn)制值.最終生成包含xi的實體類型和邊界信息的特征向量.圖2以“身”字為例,構(gòu)造特征向量,a、b、c、d、e、f、g、h分別代表實體藥名、藥性、藥味、歸經(jīng)、別名、癥狀、功效、古籍.

      2.2.2" 特征融合器

      特征向量構(gòu)造完成后,提供一個句子X=(x1,x1,x2,…,xi),就得到每個字符xi的嵌入向量ei和特征向量di,將嵌入向量ei和特征向量di拼接得到mi,如式(1)所示.

      mi=eidi.(1)

      2.3" 特征表示層

      經(jīng)過連接層后的信息需要輸入到特征表示層進(jìn)行特征提取,循環(huán)神經(jīng)網(wǎng)絡(luò)模型[19]可以動態(tài)的捕獲序列數(shù)據(jù)信息并將其存儲在內(nèi)存中,但是,如果遇到長序列問題時也容易引起梯度消失的問題.與循環(huán)神經(jīng)網(wǎng)絡(luò)模型相比,LSTM在隱藏層增加了一個存儲單元,解決了長序列信息導(dǎo)致的梯度消失或梯度分散問題.然而,LSTM模型訓(xùn)練時間較長,導(dǎo)致效率偏低,并且在3.3.1節(jié)中實驗得以證明.GRU[20]是LSTM的變體,GRU結(jié)構(gòu)包括一個更新門和一個重置門,其結(jié)構(gòu)如圖3所示.

      在GRU結(jié)構(gòu)中,包括:更新門zt和重置門rt.更新門zt的工作原理是計算前一個隱藏層狀態(tài)ht-1的信息傳輸?shù)疆?dāng)前隱藏層狀態(tài)ht的數(shù)量.zt取值為0到1,如果接近1時就傳輸,接近0時就忽略.重置門rt與更新門不同的是權(quán)重矩陣.zt和rt的計算如式(2)和(3)所示.

      zt=σ(wz*[ht-1,xt]),(2)

      rt=σ(wr*[ht-1,xt]).(3)

      首先,t時輸入xt,上一時隱藏層的狀態(tài)ht-1,還有權(quán)重分別相乘后加到“σ” 函數(shù)中.在計算完成t時刻需要記憶的內(nèi)容后,如果想要找到t-1時的隱藏狀態(tài),可以使用重置門,并在t時刻需要忽略,之后,輸入rt,ht-1,xt,并使用tanh來計算候選隱藏強(qiáng)狀態(tài).最后,ht會將當(dāng)前單元的信息傳遞給下一單元保留.所以,在t時刻,zt和h的乘積代表隱藏單元ht需要留下的信息數(shù)量.(1-zt) 和ht-1的乘積是要忘記的信息數(shù)量.具體計算如式(4)和(5)所示.

      h=tanh(wh*rtμtht-1,xt),(4)

      ht=(1-zt)μht-1+ztμht,(5)

      其中,xt是在t時的輸入;ht-1為前一時隱藏層的狀態(tài);ht為t時的隱藏狀態(tài);w為權(quán)重矩陣;wz為更新門權(quán)矩陣;wr為重置門權(quán)重矩陣;σ為sigmoid非線性變換函數(shù);tanh為激活函數(shù);h為候選的隱藏門.

      根據(jù)GRU的工作原理來看,它可以過濾掉一些無關(guān)的信息并且由于其簡單的模型結(jié)構(gòu),可以降低計算復(fù)雜度.然而,簡單的GRU并不能完全利用中醫(yī)本草中上下文的語義信息.因此,本文引入后向GRU,并利用前、后GRU神經(jīng)網(wǎng)絡(luò)提取中醫(yī)本草的實體特征,即BiGRU模型,具體公式見(6)、(7)和(8).

      h=GRU(xt),(6)

      ht=GRU(xt),(7)

      ht=〈ht,ht〉,(8)

      其中,ht和ht都是隱藏層狀態(tài),分別為了獲取前、后向信息;GRU意思是前到后的特征表示;GRU的意思是后到前的特征表示;ht的是中醫(yī)本草的特征,即最終隱藏層狀態(tài).所以,GRU不僅具有LSTM的優(yōu)點,而且簡化了其網(wǎng)絡(luò)結(jié)構(gòu),減少了計算時間.

      2.4" 解碼層

      在特征表示層中,雖然BiGRU模型可以識別實體,但它沒有考慮實體序列之間的關(guān)系是否正確,而CRF模型可以按照相鄰標(biāo)簽之間的依賴關(guān)系得到最優(yōu)的標(biāo)簽序列,因此,它經(jīng)常應(yīng)用于詞性標(biāo)記和命名實體識別等任務(wù)中.它的基本原理是以給定的隨機(jī)變量作為輸入,計算輸出隨機(jī)變量的條件概率分布,通常使用Viterbi算法進(jìn)行解碼.

      特征表示層輸出隱藏狀態(tài)上下文特征向量h,h記為h=(h1,h2,…,ht),將其轉(zhuǎn)換為最優(yōu)標(biāo)簽序列y=(y1,y2,…,yt).CRF計算原理包括:首先輸入序列x=(x1,x2,…,xt),計算出每個位置的分?jǐn)?shù),如式(9)所示.其次通過Softmax函數(shù)計算歸一化序列y的概率,如式(10)所示.最后,使用Viterbi計算分?jǐn)?shù)最高的標(biāo)簽序列,如式(11)所示.

      score(h,y)=∑Tt=1Ayt-1,yt+∑Tt=1Wtytht,(9)

      Pyh=escore(h,y)∑y′∈Y(h)escore(h,y′),(10)

      y*=arg maxy′∈Y(h)(h,y′),(11)

      其中,A為標(biāo)簽間傳遞分?jǐn)?shù)矩陣;score(h,y)是位置分?jǐn)?shù);Wtyt是參數(shù)向量;P(y/h)是歸一化概率函數(shù);Y(h)表示所有可能的標(biāo)簽序列;而式(10)可以用于計算輸入序列中每個位置的得分(h,y),它由特征表示層輸出的特征矩陣和CRF轉(zhuǎn)移矩陣組合而成.

      因此,通過將CRF與BiGRU神經(jīng)網(wǎng)絡(luò)相結(jié)合,對BiGRU的輸出結(jié)果進(jìn)行再次處理和修正,以獲得最佳標(biāo)簽序列.

      3" 實驗與結(jié)果分析

      3.1" 數(shù)據(jù)集和評估指標(biāo)

      基于文獻(xiàn)調(diào)研,再結(jié)合中醫(yī)領(lǐng)域?qū)<业慕ㄗh,本文選用具有代表性的經(jīng)典中醫(yī)本草古籍,包括《神農(nóng)本草經(jīng)》、《名醫(yī)別錄》、《新修本草》、《本草綱目》,并采用人工標(biāo)注的方法構(gòu)建實驗所需的數(shù)據(jù)集.本文共標(biāo)注了8類實體,包括藥名、藥性、藥味、歸經(jīng)、別名、癥狀、功效、古籍,其中數(shù)據(jù)集共計25 000余句,包含16 382個實體.最后將數(shù)據(jù)集80%作為訓(xùn)練集,10%為驗證集,10%為測試集,具體數(shù)量如表2所示.

      為了直觀的檢驗?zāi)P偷男阅埽疚牟捎脤嶓w級上的3個指標(biāo)進(jìn)行評估,實體級表示對于給定某實體,只有當(dāng)該實體所有字符標(biāo)簽均預(yù)測正確時,該實體才被認(rèn)為正確預(yù)測,具體如式(12)~(14)所示.

      1)精確率(Precision, P)是正確被抽取的實體數(shù)占所有實際被抽取到的實體數(shù)的比例,如式(12).

      P=正確的實體數(shù)抽取出的實體數(shù)×100%.(12)

      2)召回率(Recall, R)是所有正確被抽取實體數(shù)占所有應(yīng)該被抽取到的實體數(shù)的比例,如式(13).

      R=正確的實體數(shù)數(shù)據(jù)中包含的實體數(shù)×100%.(13)

      3)F1值(F1 Score)表示的是精確率和召回率的綜合考量,如公式(14).

      F1=2P·RP+R×100%.(14)

      3.2" 實驗參數(shù)

      本文實驗參數(shù)設(shè)置:Bert初始學(xué)習(xí)率為0.000 01,模型中其他參數(shù)的學(xué)習(xí)率為0.000 1,模型的詳細(xì)超參數(shù)設(shè)置如表3所示,并且所有實驗在pytorch1.3環(huán)境下使用單個GTX 2080Ti GPU上進(jìn)行訓(xùn)練.

      3.3" 實驗結(jié)果及分析

      實驗設(shè)計了多組對比模型來驗證本文所提模型在中醫(yī)本草上識別的效果.針對每種方法進(jìn)行5次實驗,取平均作為實驗結(jié)果,以保證實驗的公平.

      3.3.1" 對比模型

      圖4顯示了本文所提出的模型在中醫(yī)本草數(shù)據(jù)集上的結(jié)果,通過對比圖可以觀察到,本文所提模型取得最優(yōu)F1值,這表明模型能夠有效的利用詞典信息,增強(qiáng)模型的特征表示.選取BiLSTM-CRF[21]與Bert-BiLSTM-CRF[22]和BiGRU-CRF與Bert-BiGRU-CRF為了驗證Bert預(yù)訓(xùn)練模型對整體模型的效果.結(jié)果表明,Bert預(yù)訓(xùn)練模型對提升模型性能發(fā)揮著重要作用.之后,為了驗證特征增強(qiáng)方法的效果,選用Bert-BiGRU-CRF模型與本文所提出模型進(jìn)行比較,證明本文創(chuàng)建的詞典以及融入詞典實體特征的方法是有效的.實驗結(jié)果表明,本文所提出的模型在中醫(yī)本草數(shù)據(jù)集上F1值達(dá)到了90.54%,提升了2.25%.

      因此,與對比模型相比融入實體特征的模型更適用于中醫(yī)本草命名實體識別任務(wù),具體結(jié)果如表4所示.

      此外,本文為驗證BiGRU在中醫(yī)本草命名實體識別任務(wù)中的作用,通過將實體特征分別融到Bert-BiLSTM-CRF和Bert-BiGRU-CRF模型中,分析模型訓(xùn)練時前10輪每次迭代與F1值的關(guān)系,如圖5所示.

      由圖5可以看出,D-Bert-BiLSTM-CRF模型在第9輪F1值最高,D-Bert-BiLSTM-CRF模型在第8輪F1值最高,表5列出了模型的最佳結(jié)果和每次迭代所需要的時間.

      結(jié)果表明,在中醫(yī)本草數(shù)據(jù)集上融入實體特征后2種模型效果都有了明顯的提升.雖然2組模型中F1值相差較少,但是D-Bert-BiLSTM-CRF模型訓(xùn)練時每次迭代時間更短,這是由于BiGRU模型結(jié)構(gòu)簡單,計算效率高,因此選用BiGRU模型更佳.

      3.3.2" 詞典大小對模型的影響

      考慮到詞典大小對模型識別也發(fā)揮著重要作用,通過在原始詞典中隨機(jī)抽取70%、80%、90%、100%的實體來構(gòu)建不同大小的新詞典,并融入Bert-BiGRU-CRF模型中,得到的模型效果如圖6所示.結(jié)果表明,不同詞典的大小對模型得性能有著一定的影響,并且隨著詞典大小的變化,模型的F1值相應(yīng)提高.可以證明,假如有一個包含更多中醫(yī)本草領(lǐng)域?qū)嶓w的詞典,可以得到更好的結(jié)果.

      4" 結(jié)論

      由于通用領(lǐng)域的命名實體識別方法在識別中醫(yī)本草實體時,傳統(tǒng)的分詞方法容易分詞錯誤引起誤差傳播,而且難以解決實體邊界模糊的問題,本文通過特征增強(qiáng)方法,使用特征融合器可以更好地確定實體邊界.使用BiGRU不僅可以更好地捕獲特征信息,而且還可以提高效率,從而更好地確定實體及其邊界信息,達(dá)到特征增強(qiáng)的效果.與其他方法對比,模型F1值達(dá)到了90.54%,優(yōu)于現(xiàn)有的深度學(xué)習(xí)網(wǎng)絡(luò)模型,為以后的下游任務(wù)奠定了堅實的基礎(chǔ).

      盡管本研究對中醫(yī)本草命名實體識別是有效的,但是還存在一些不足需改進(jìn):1)一些標(biāo)注數(shù)量較少的實體識別效果相對較差,可以增加數(shù)據(jù)集中相對較少的實體.2)對模型進(jìn)一步改進(jìn)提高識別效果,應(yīng)用該模型從中醫(yī)本草中提取信息并構(gòu)建領(lǐng)域知識圖譜.

      參" 考" 文" 獻(xiàn):

      [1]" 康怡琳,孫璐冰,朱容波,等.深度學(xué)習(xí)中文命名實體識別研究綜述[J].華中科技大學(xué)學(xué)報(自然科學(xué)版),2022,50(11):44-53. DOI:10.13245/j.hust.221104.

      [2]" 肖瑞,胡馮菊,裴衛(wèi).基于BiLSTM-CRF的中醫(yī)文本命名實體識別[J].世界科學(xué)技術(shù)-中醫(yī)藥現(xiàn)代化,2020,22(7):2504-2510. DOI:10.11842/wst.20190513001.

      [3]" 李學(xué)良.基于知識圖譜的中醫(yī)藥問答系統(tǒng)的研究與實現(xiàn)[D].青島:青島大學(xué),2021. DOI:10.27262/d.cnki.gqdau.2021.001635.

      [4]" FRIEDMAN C, ALDERSON P O, AUSTIN J H, et al. A general natural-language text processor for clinical radiology[J]. Journal of the American Medical Informatics Association, 1994, 1(2): 161-174. DOI:10.1136/jamia.1994.95236146.

      [5]" ZHOU G D, SU J. Named entity recognition using an HMM-based chunk tagger[C]//Proceedings of the 40th Annual Meeting on" Association for Fomputational Linguistics. ACM, 2002: 473-480. DOI:10.3115/1073083.1073163.

      [6]" WU Y C, FAN T K, LEE Y S, et al. Extracting named entities using support vector machines[M]//BREMER E G, HAKENBERG J, HAN E H, et al, eds. Knowledge Discovery in Life Science Literature. Berlin, Heidelberg: Springer Berlin Heidelberg, 2006: 91-103. DOI: 10.1007/11683568_8.

      [7]" HAN L, WANG L, ZHANG W, et al. Rockhead profile simulation using an improved generation method of conditional random field[J]. Journal of Rock Mechanics and Geotechnical Engineering, 2022, 14(3): 896-908. DOI:10.1016/j.jrmge.2021.09.007.

      [8]" KOWSHER M, SAMI A A, PROTTASHA N J, et al. Bangla-BERT: transformer-based efficient model for transfer learning and language understanding[J]. IEEE Access, 2022, 10: 91855-91870. DOI:10.1109/ACCESS.2022.3197662.

      [9]" QU Q Q, KAN H X, WU Y T, et al. Named entity recognition of TCM text based on bert model[C]//2020 7th International Forum on Electrical Engineering and Automation (IFEEA). Hefei, China. IEEE, 2020: 652-655. DOI: 10.1109/IFEEA51475.2020.00139.

      [10]" QIN Q L, ZHAO S, LIU C M. A BERT-BiGRU-CRF model for entity recognition of Chinese electronic medical records[J]. Complexity, 2021, 2021: 6631837 DOI:10.1155/2021/6631837.

      [11]" TONG B A, PAN J, ZHENG L X, et al. Research on Named Entity Recognition Based on Bert-BiGRU-CRF model in Spacecraft Field[C]//2021 IEEE International Conference on Computer Science, Electronic Information Engineering and Intelligent Control Technology (CEI). Fuzhou, China IEEE, 2021: 747-753. DOI: 10.1109/CEI52496.2021.9574470.

      [12]" 謝靖,劉江峰,王東波.古代中國醫(yī)學(xué)文獻(xiàn)的命名實體識別研究: 以Flat-lattice增強(qiáng)的SikuBERT預(yù)訓(xùn)練模型為例[J].圖書館論壇, 2022, 42(10): 51-60. DOI: 10.3969/j.issn.1002-1167.2022.10.008.

      [13]" 陳淑振,竇全勝,唐煥玲等.基于詞融合與跨度檢測的中文嵌套命名實體識別[J].計算機(jī)應(yīng)用研究,2023,40(8):2382-2386+2392.DOI:10.19734/j.issn.1001-3695.2022.11.0767.

      [14]" 李寶昌,郭衛(wèi)斌.詞典信息分層調(diào)整的中文命名實體識別方法[J].華東理工大學(xué)學(xué)報(自然科學(xué)版), 2023, 49(2): 276-283. DOI: 10.14135/j.cnki.1006-3080.20211105003.

      [15]" 趙萍.基于特征增強(qiáng)的中文命名實體識別方法研究[D].煙臺:山東工商學(xué)院,2022. DOI:10.27903/d.cnki.gsdsg.2022.000146.

      [16]" 雷迪.面向中醫(yī)藥知識圖譜的命名實體識別及關(guān)系抽?。跠].石家莊: 河北地質(zhì)大學(xué), 2022.

      [17]" LI J Y, FEI H, LIU J, et al. Unified named entity recognition as word-word relation classification[J]. Proc AAAI Conf Artif Intell, 2022, 36(10): 10965-10973. DOI: 10.1609/aaai.v36i10.21344.

      [18]" LIU J, JI D H, LI J Y, et al. TOE: a grid-tagging discontinuous NER model enhanced by embedding tag/word relations and more fine-grained tags[J]. IEEE/ACM Trans Audio Speech Lang Process, 31: 177-187. DOI: 10.1109/TASLP.2022.3221009.

      [19]" WARTO, MULJONO, PURWANTO, et al. Capitalization feature and learning rate for improving NER based on RNN BiLSTM-CRF[C]//2022 IEEE International Conference on Cybernetics and Computational Intelligence (CyberneticsCom). Malang, Indonesia. IEEE, 2022: 398-403. DOI: 10.1109/CyberneticsCom55287.2022.9865660.

      [20]" PARK C, JEONG S, KIM J. ADMit: improving NER in automotive domain with domain adversarial training and multi-task learning[J]. Expert Syst Appl, 2023, 225: 120007. DOI: 10.1016/j.eswa.2023.120007.

      [21]" DENG N, FU H, CHEN X. Named entity recognition of traditional Chinese medicine patents based on BiLSTM-CRF[J]. Wirel Commun Mob Comput, 2021, 2021: 6696205. DOI: 10.1155/2021/6696205.

      [22]" ZHANG M Z, YANG Z G, LIU C, et al. Traditional Chinese Medicine Knowledge Service based on Semi-Supervised BERT-BiLSTM-CRF Model[C]//2020 International Conference on Service Science (ICSS). Xining, China. IEEE, 2020: 64-69. DOI: 10.1109/ICSS50103.2020.00018.

      (責(zé)任編輯:孟素蘭)

      猜你喜歡
      中草藥
      馬副蛔蟲的中草藥防治試驗研究
      今日農(nóng)業(yè)(2022年16期)2022-09-22 05:38:28
      三味中草藥 消炎效果好
      中草藥在口腔護(hù)理中的開發(fā)應(yīng)用
      中草藥制劑育肥豬
      中草藥來源的Ⅰ類HDAC抑制劑篩選
      腦筋急轉(zhuǎn)彎
      家庭用藥(2016年9期)2016-12-03 16:08:52
      中草藥在緩解夏季豬熱應(yīng)激中的研究應(yīng)用
      廣東飼料(2016年7期)2016-12-01 03:43:34
      結(jié)緣中草藥
      建立中草藥處方點評工作的實踐
      404 Not Found

      404 Not Found


      nginx
      新河县| 南乐县| 安远县| 巴楚县| 郸城县| 华池县| 辽宁省| 南岸区| 嘉黎县| 临城县| 岢岚县| 仪征市| 兴业县| 宜宾市| 英山县| 海城市| 盐池县| 建水县| 天气| 滕州市| 比如县| 清丰县| 闵行区| 宝山区| 衡阳县| 武川县| 怀宁县| 会昌县| 慈利县| 河津市| 崇阳县| 庄河市| 石嘴山市| 兖州市| 宜春市| 万安县| 光泽县| 启东市| 同心县| 孝昌县| 潍坊市|