融合醫(yī)學(xué)詞典的條件隨機(jī)場(chǎng)模型多文本實(shí)體識(shí)別研究

2022-01-25 14:44:40沈同平

長(zhǎng)春大學(xué)學(xué)報(bào) 2021年12期

沈同平, 俞磊

(安徽中醫(yī)藥大學(xué) 醫(yī)藥信息工程學(xué)院，合肥 230012)

實(shí)體識(shí)別是自然語(yǔ)言處理技術(shù)的一個(gè)重要研究方向，自1995年在第六屆信息抽取會(huì)議上提出實(shí)體識(shí)別評(píng)測(cè)任務(wù)后，文本命名識(shí)別研究在國(guó)內(nèi)外迅速發(fā)展，聚焦于金融、新聞媒體、醫(yī)學(xué)文本處理等方面，并取得了豐碩的成果。命名實(shí)體的研究方法主要有基于規(guī)則和詞典的方法[1-2]、傳統(tǒng)的機(jī)器學(xué)習(xí)方法[3-4]、深度學(xué)習(xí)方法[5]、注意力機(jī)制模型和遷移學(xué)習(xí)方法[6-7]等。隨著國(guó)家醫(yī)療信息化進(jìn)程地加快，電子病歷數(shù)據(jù)量迅速增加，電子病歷中包含了大量的隱性醫(yī)學(xué)知識(shí)。相關(guān)研究表明，電子病歷是知識(shí)密集型文本，醫(yī)學(xué)實(shí)體分布的密集程度高于通用領(lǐng)域文本，具有非常重要的研究?jī)r(jià)值。和通用領(lǐng)域文本相比，電子病歷中的文本的實(shí)體類型主要有癥狀、疾病名稱、檢查手段和方式等。這些實(shí)體數(shù)量眾多、類型豐富，且實(shí)體長(zhǎng)度變化多樣，實(shí)體結(jié)構(gòu)存在別名、縮寫詞等問(wèn)題，造成電子病歷文本中實(shí)體識(shí)別效果不佳。

針對(duì)這些問(wèn)題，有些學(xué)者采用構(gòu)建詞典的方式來(lái)提升模型的效果。吳金星等[8]提出CRF和詞典相結(jié)合的方式，對(duì)蒙古文地名進(jìn)行識(shí)別研究，準(zhǔn)確率達(dá)到94.68%。龔樂(lè)君等[9]通過(guò)對(duì)外部資源的統(tǒng)計(jì)分析構(gòu)建醫(yī)療領(lǐng)域詞典,再結(jié)合條件隨機(jī)場(chǎng),進(jìn)行了兩次不同粒度的標(biāo)注，將領(lǐng)域詞典識(shí)別的準(zhǔn)確性和機(jī)器學(xué)習(xí)的自動(dòng)性融為一體，從中文電子病歷文本中識(shí)別出疾病、癥狀、藥品、操作四類醫(yī)療實(shí)體，取得良好的效果。任雪菁等[10]采取了詞典和 CRF 算法相結(jié)合的方法，來(lái)提升模型整體的識(shí)別精度，并采用Python等工具構(gòu)建中文生物醫(yī)學(xué)實(shí)體自動(dòng)標(biāo)注平臺(tái)。珠杰等[11]利用條件隨機(jī)場(chǎng)的方法，研究觸發(fā)詞、虛詞、人名詞典和指人名詞后綴為特征的不同特征組合與優(yōu)化，取得一定的模型效果。晏雷等[12]根據(jù)老撾語(yǔ)機(jī)構(gòu)名構(gòu)詞特點(diǎn)，將前綴詞提取構(gòu)造成一個(gè)機(jī)構(gòu)名稱特征詞典, 基于詞典與SVM模型確定老撾機(jī)構(gòu)名稱前界,再使用融合多特征的CRF模型識(shí)別機(jī)構(gòu)名稱，取得了較好的識(shí)別效果。

相對(duì)于通用領(lǐng)域文本，對(duì)特殊領(lǐng)域文本如醫(yī)學(xué)文本、少數(shù)民族語(yǔ)言以及小語(yǔ)種來(lái)說(shuō)，單獨(dú)的CRF模型效果一般不盡人意，可以通過(guò)構(gòu)建相應(yīng)的領(lǐng)域詞典來(lái)提高CRF模型的識(shí)別效果。采用兩種不同類型數(shù)據(jù)集，通用領(lǐng)域文本(簡(jiǎn)歷數(shù)據(jù)集)和特殊領(lǐng)域文本(CCKS2017電子病歷)進(jìn)行對(duì)比分析和驗(yàn)證，從而提升CRF模型在中文文本中實(shí)體識(shí)別效果。

1 相關(guān)方法

1.1 條件隨機(jī)場(chǎng)(CRF)模型

條件隨機(jī)場(chǎng)(CRF)是典型的無(wú)向概率圖模型，2001年由Lafferty等專家提出，結(jié)合了大熵模型(MEMM)和隱馬爾可夫模型(HMM)的優(yōu)點(diǎn)，利用豐富的內(nèi)部及上下文特征信息，充分考慮了輸出序列的聯(lián)合概率分布，在詞性標(biāo)注、實(shí)體識(shí)別等自然語(yǔ)言處理任務(wù)中取得了不錯(cuò)的成績(jī)。CRF模型屬于判別式模型，使用最多的是線性鏈條件隨機(jī)場(chǎng)，x=(x1,…,xn)表示觀察數(shù)據(jù)序列，y=(y1,…,yn)表示狀態(tài)序列，需要計(jì)算的條件概率如下式所示：

P(y1,…,yn|x1,…,xn)=P(y1,…,yn|x),x=(x1,…,xn)，

(1)

CRF模型與HMM等模型相比，可以定義數(shù)量更多、種類更豐富的特征函數(shù)，同時(shí)，特征函數(shù)的權(quán)重沒(méi)有任何限制。我們可以為每個(gè)特征函數(shù)賦予一個(gè)權(quán)值，用以表達(dá)我們對(duì)這個(gè)特征函數(shù)的信任度。假設(shè)tk的權(quán)重系數(shù)是λk,sl的權(quán)重系數(shù)是μl,則CRF由我們所有的tk,λk,sl,μl共同決定。

(2)

其中，Z(x)為規(guī)范化因子：

(3)

CRF模型的重要任務(wù)就是在訓(xùn)練數(shù)據(jù)中使用最大似然估計(jì)算法，計(jì)算不同特征權(quán)重λ。在模型訓(xùn)練時(shí)，通過(guò)函數(shù)L的計(jì)算，使得P(s|o,L)對(duì)數(shù)值最大為1的估計(jì)值。

(4)

函數(shù)L計(jì)算出來(lái)后，采用動(dòng)態(tài)規(guī)劃的最短路徑求解方法維特比(Viterbi)算法，求解最可能的狀態(tài)序列并輸出。定義了兩個(gè)局部狀態(tài)進(jìn)行遞推。首先，計(jì)算在時(shí)刻t隱藏狀態(tài)為i的所有可能的狀態(tài)轉(zhuǎn)移路徑i1,i2,...it中的概率最大值，記為δt(i):

(5)

由δt(i)的定義可以得到δ的一般遞推公式：

(6)

在前一個(gè)局部狀態(tài)的基礎(chǔ)上進(jìn)行第二個(gè)局部狀態(tài)計(jì)算，求得在時(shí)刻t隱藏狀態(tài)為i的所有單個(gè)狀態(tài)轉(zhuǎn)移路徑(i1,i2,...,it-1,i)中概率最大的轉(zhuǎn)移路徑中第t-1個(gè)節(jié)點(diǎn)的隱藏狀態(tài)為Ψt(i)，計(jì)算公式為

(7)

1.2 專業(yè)醫(yī)學(xué)詞典構(gòu)建

通用文本和醫(yī)學(xué)文本的特征和用詞方式都存在很大差異，為了提升CRF模型在醫(yī)學(xué)文本中的實(shí)體識(shí)別效果，需要構(gòu)建專業(yè)的醫(yī)學(xué)詞典。構(gòu)建的步驟：利用爬蟲從丁香醫(yī)生、百度百科等網(wǎng)站上爬取相關(guān)醫(yī)學(xué)知識(shí)。對(duì)爬取的醫(yī)學(xué)文本進(jìn)行中文分詞、去除噪音以及人工標(biāo)注等操作，形成專業(yè)醫(yī)學(xué)詞典。實(shí)驗(yàn)數(shù)據(jù)集采用CCKS2017電子病歷文件，因此醫(yī)學(xué)詞典的標(biāo)注按照身體部位(Body)、檢查手段(CHeck)、疾病名稱(Disease)、癥狀(Signs)和治療手段(Treatment)五種實(shí)體類型進(jìn)行標(biāo)注，規(guī)范如下：

(1)身體部位：患者全身的各個(gè)部位，比如“咽部”、“雙肺”、“四肢”和“頭顱”等，描述患者各種不適的身體部位。

(2)疾病名稱：醫(yī)生根據(jù)檢查手段以及臨床經(jīng)驗(yàn)，診斷出患者所患疾病，一般以“病”或“癥”“炎”作為實(shí)體的最后一個(gè)詞。比如“支氣管肺炎”和“糖尿病”等。

(3)癥狀：患者因疾病導(dǎo)致的各種不適或異常表現(xiàn)或者患者在描述自身情況的介紹，比如“頭痛頭暈”“麻木無(wú)力”和“嘔吐”等。

(4)檢查手段：根據(jù)患者的癥狀描述以及身體部位情況，采用一定的檢查項(xiàng)目進(jìn)行疾病判斷。比如“跟膝腱反射”“雙側(cè)巴氏征”和“腸鳴音”等。

(5)治療手段：結(jié)合檢查手段，針對(duì)具體疾病給予具體的治療方式和手段，比如“胰島素”、“降壓藥物”和“阿托伐他汀”等。

2 實(shí)驗(yàn)結(jié)果與分析

2.1 實(shí)驗(yàn)數(shù)據(jù)集

采用兩個(gè)公開(kāi)的數(shù)據(jù)集對(duì)模型進(jìn)行評(píng)測(cè)，分別是CCKS2017電子病歷數(shù)據(jù)集和簡(jiǎn)歷(Resume)數(shù)據(jù)集，CCKS2017電子病歷數(shù)據(jù)集主要是從電子病歷的角度進(jìn)行專業(yè)醫(yī)學(xué)實(shí)體識(shí)別。因此采用模型驗(yàn)證的數(shù)據(jù)集具有一定的擴(kuò)展性，既有常規(guī)的文本，又有專業(yè)的醫(yī)學(xué)文本。

CCKS2017電子病歷數(shù)據(jù)集包括7種實(shí)體名稱，分別是身體部位(Body)、檢查手段(Check)、疾病名稱(Disease)、癥狀(Signs)和治療手段(Treatment)。訓(xùn)練集中各實(shí)體的數(shù)量如表1所示。

表1 CCKS2017數(shù)據(jù)集訓(xùn)練集各實(shí)體數(shù)量

簡(jiǎn)歷數(shù)據(jù)集(Resume)包含7種實(shí)體名稱，分別是國(guó)籍(CONT)、姓名(NAME)、學(xué)歷(EDU)、職稱(TITLE)、公司(ORG)、民族(RACE)、專業(yè)(PRO)和籍貫(LOC)。訓(xùn)練集中各實(shí)體的數(shù)量如表2所示。

表2 Resume數(shù)據(jù)集訓(xùn)練集各實(shí)體數(shù)量

2.2 數(shù)據(jù)集標(biāo)注與評(píng)價(jià)指標(biāo)

文本中的實(shí)體識(shí)別，通常需要對(duì)數(shù)據(jù)集進(jìn)行序列標(biāo)注，進(jìn)而實(shí)現(xiàn)不同的實(shí)體識(shí)別。數(shù)據(jù)集主要采用BMES標(biāo)注體系。在CCKS2017數(shù)據(jù)集中，以實(shí)體Treatment為例，“B- Treatment”表示治療手段實(shí)體的首字符，“M- Treatment”表示治療手段的中間字符，“E- Treatment”表示治療手段實(shí)體的最后一個(gè)字符，“S- Treatment”表示單獨(dú)的治療手段實(shí)體，“O”表示5個(gè)實(shí)體外的其他字符。在簡(jiǎn)歷數(shù)據(jù)集(Resume)中，以實(shí)體LOC為例，“B- LOC”表示籍貫實(shí)體的首字符，“M- LOC”表示籍貫實(shí)體的中間字符，“E- LOC”表示籍貫實(shí)體的最后一個(gè)字符，“S- LOC”表示單獨(dú)的籍貫實(shí)體，“O”表示8個(gè)實(shí)體外的其他字符。

采用通過(guò)精確率(Precision)、召回率(Recall)、F1值和精確率(Accuracy)對(duì)模型評(píng)價(jià)，驗(yàn)證本文模型的有效性。

(11)

(12)

(13)

Acc=(Tp+Tn)/(Tp+Fn+Tn+Fp)，

(14)

其中，Tp表示真正例，F(xiàn)p表示假正例，Tn表示正負(fù)例，F(xiàn)n表示假負(fù)例。

采用Pytorch平臺(tái)搭建實(shí)驗(yàn)環(huán)境，具體配置如表3所示。

表3 模型實(shí)驗(yàn)配置環(huán)境

續(xù)表3

2.3 實(shí)驗(yàn)結(jié)果

為了對(duì)提出的模型進(jìn)行評(píng)價(jià)，分別對(duì)簡(jiǎn)歷數(shù)據(jù)集(Resume)和CCKS2017電子病歷數(shù)據(jù)集進(jìn)行評(píng)測(cè)，其中針對(duì)Resume數(shù)據(jù)集，采用CRF模型進(jìn)行評(píng)測(cè)，CCKS2017電子病歷數(shù)據(jù)集分別采用CRF模型和CRF模型+詞典進(jìn)行評(píng)測(cè)，結(jié)果如表4和表5所示。

表4 簡(jiǎn)歷數(shù)據(jù)集(Resume)測(cè)評(píng)結(jié)果

表5 CCKS2017電子病歷數(shù)據(jù)集測(cè)評(píng)結(jié)果

從表4可以看出，CRF模型對(duì)簡(jiǎn)歷數(shù)據(jù)集(Resume)取得了不錯(cuò)的效果，準(zhǔn)確率為93.71%，召回值93.01，F(xiàn)值達(dá)到93.38。簡(jiǎn)歷數(shù)據(jù)集中的文本類型是普通文本，CRF模型能取得較不錯(cuò)的評(píng)測(cè)效果。國(guó)籍(CONT)和民族(RACE)兩個(gè)實(shí)體，F(xiàn)值達(dá)到100，因?yàn)檫@兩個(gè)實(shí)體字段比較固定，不容易產(chǎn)生歧義，模型能夠高效的進(jìn)行區(qū)分和識(shí)別。但對(duì)公司(ORG)和專業(yè)(PRO)這兩個(gè)實(shí)體識(shí)別效果相對(duì)較差，因?yàn)閷I(yè)和公司名稱眾多，同時(shí)容易產(chǎn)生混淆，比如專業(yè)名稱“臨床醫(yī)學(xué)專業(yè)”、“中醫(yī)臨床醫(yī)學(xué)專業(yè)”和“中西醫(yī)臨床醫(yī)學(xué)專業(yè)”等。

從表5可以看出，在CCKS2017電子病歷數(shù)據(jù)集中，實(shí)體Disease和Treatment在訓(xùn)練集中的數(shù)量分別是515個(gè)和813個(gè)，而Signs、Body和Check的數(shù)量分別為6 486個(gè)、8 942個(gè)和7 987個(gè)。實(shí)體Disease和Treatment的評(píng)測(cè)效果相對(duì)降低，召回值只有70.06和72.26，表明訓(xùn)練集中實(shí)體數(shù)量多少直接影響模型的測(cè)評(píng)性能。

相對(duì)于簡(jiǎn)歷數(shù)據(jù)集(Resume)，CCKS2017電子病歷數(shù)據(jù)集模型評(píng)測(cè)效果相對(duì)較差，準(zhǔn)確率、召回值和F值分別為89.32、88.00和88.54。這是因?yàn)獒t(yī)學(xué)文本中的醫(yī)學(xué)實(shí)體長(zhǎng)度不定、結(jié)構(gòu)復(fù)雜和專業(yè)術(shù)語(yǔ)較多等原因?qū)е翪RF模型在醫(yī)學(xué)文本上識(shí)別效果較低。為了提高CRF在醫(yī)學(xué)文本中的識(shí)別效果，文章提出將醫(yī)學(xué)詞典結(jié)合CRF模型進(jìn)行評(píng)測(cè)，評(píng)測(cè)效果取得了一定程度地提升，CCKS2017電子病歷數(shù)據(jù)集模型的準(zhǔn)確率、召回值和F值分別為94.04、94.18和94.06，表明本文提出的模型結(jié)構(gòu)的有效性。

3 結(jié)語(yǔ)

在對(duì)中文實(shí)體識(shí)別分析的基礎(chǔ)上，對(duì)比分析CRF模型在通用文本和醫(yī)學(xué)文本中實(shí)體識(shí)別的效果。實(shí)證結(jié)果表明，CRF模型在通用文本中取得了較為理想的測(cè)評(píng)效果，但由于醫(yī)學(xué)文本中的醫(yī)學(xué)實(shí)體長(zhǎng)度不定、結(jié)構(gòu)復(fù)雜和專業(yè)術(shù)語(yǔ)較多， CRF模型在醫(yī)學(xué)文本上識(shí)別效果較低。為了提升在醫(yī)學(xué)文本上的識(shí)別效果，構(gòu)建了專業(yè)的醫(yī)學(xué)詞典，實(shí)驗(yàn)結(jié)果表明，CRF+詞典的模型能夠有效提升在醫(yī)學(xué)文本中各類醫(yī)學(xué)實(shí)體的識(shí)別效果。本次實(shí)驗(yàn)的數(shù)據(jù)集采用的是BMES標(biāo)注體系，后續(xù)還需要對(duì)BIO標(biāo)注體系和BIEOS等標(biāo)注體系進(jìn)行對(duì)比研究。