• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      融合醫(yī)學(xué)詞典的條件隨機(jī)場(chǎng)模型多文本實(shí)體識(shí)別研究

      2022-01-25 14:44:40沈同平
      關(guān)鍵詞:評(píng)測(cè)病歷詞典

      沈同平, 俞 磊

      (安徽中醫(yī)藥大學(xué) 醫(yī)藥信息工程學(xué)院,合肥 230012)

      實(shí)體識(shí)別是自然語(yǔ)言處理技術(shù)的一個(gè)重要研究方向,自1995年在第六屆信息抽取會(huì)議上提出實(shí)體識(shí)別評(píng)測(cè)任務(wù)后,文本命名識(shí)別研究在國(guó)內(nèi)外迅速發(fā)展,聚焦于金融、新聞媒體、醫(yī)學(xué)文本處理等方面,并取得了豐碩的成果。命名實(shí)體的研究方法主要有基于規(guī)則和詞典的方法[1-2]、傳統(tǒng)的機(jī)器學(xué)習(xí)方法[3-4]、深度學(xué)習(xí)方法[5]、注意力機(jī)制模型和遷移學(xué)習(xí)方法[6-7]等。隨著國(guó)家醫(yī)療信息化進(jìn)程地加快,電子病歷數(shù)據(jù)量迅速增加,電子病歷中包含了大量的隱性醫(yī)學(xué)知識(shí)。相關(guān)研究表明,電子病歷是知識(shí)密集型文本,醫(yī)學(xué)實(shí)體分布的密集程度高于通用領(lǐng)域文本,具有非常重要的研究?jī)r(jià)值。和通用領(lǐng)域文本相比,電子病歷中的文本的實(shí)體類型主要有癥狀、疾病名稱、檢查手段和方式等。這些實(shí)體數(shù)量眾多、類型豐富,且實(shí)體長(zhǎng)度變化多樣,實(shí)體結(jié)構(gòu)存在別名、縮寫詞等問(wèn)題,造成電子病歷文本中實(shí)體識(shí)別效果不佳。

      針對(duì)這些問(wèn)題,有些學(xué)者采用構(gòu)建詞典的方式來(lái)提升模型的效果。吳金星等[8]提出CRF和詞典相結(jié)合的方式,對(duì)蒙古文地名進(jìn)行識(shí)別研究,準(zhǔn)確率達(dá)到94.68%。龔樂(lè)君等[9]通過(guò)對(duì)外部資源的統(tǒng)計(jì)分析構(gòu)建醫(yī)療領(lǐng)域詞典,再結(jié)合條件隨機(jī)場(chǎng),進(jìn)行了兩次不同粒度的標(biāo)注,將領(lǐng)域詞典識(shí)別的準(zhǔn)確性和機(jī)器學(xué)習(xí)的自動(dòng)性融為一體,從中文電子病歷文本中識(shí)別出疾病、癥狀、藥品、操作四類醫(yī)療實(shí)體,取得良好的效果。任雪菁等[10]采取了詞典和 CRF 算法相結(jié)合的方法,來(lái)提升模型整體的識(shí)別精度,并采用Python等工具構(gòu)建中文生物醫(yī)學(xué)實(shí)體自動(dòng)標(biāo)注平臺(tái)。珠杰等[11]利用條件隨機(jī)場(chǎng)的方法,研究觸發(fā)詞、虛詞、人名詞典和指人名詞后綴為特征的不同特征組合與優(yōu)化,取得一定的模型效果。晏雷等[12]根據(jù)老撾語(yǔ)機(jī)構(gòu)名構(gòu)詞特點(diǎn),將前綴詞提取構(gòu)造成一個(gè)機(jī)構(gòu)名稱特征詞典, 基于詞典與SVM模型確定老撾機(jī)構(gòu)名稱前界,再使用融合多特征的CRF模型識(shí)別機(jī)構(gòu)名稱,取得了較好的識(shí)別效果。

      相對(duì)于通用領(lǐng)域文本,對(duì)特殊領(lǐng)域文本如醫(yī)學(xué)文本、少數(shù)民族語(yǔ)言以及小語(yǔ)種來(lái)說(shuō),單獨(dú)的CRF模型效果一般不盡人意,可以通過(guò)構(gòu)建相應(yīng)的領(lǐng)域詞典來(lái)提高CRF模型的識(shí)別效果。采用兩種不同類型數(shù)據(jù)集,通用領(lǐng)域文本(簡(jiǎn)歷數(shù)據(jù)集)和特殊領(lǐng)域文本(CCKS2017電子病歷)進(jìn)行對(duì)比分析和驗(yàn)證,從而提升CRF模型在中文文本中實(shí)體識(shí)別效果。

      1 相關(guān)方法

      1.1 條件隨機(jī)場(chǎng)(CRF)模型

      條件隨機(jī)場(chǎng)(CRF)是典型的無(wú)向概率圖模型,2001年由Lafferty等專家提出,結(jié)合了大熵模型(MEMM)和隱馬爾可夫模型(HMM)的優(yōu)點(diǎn),利用豐富的內(nèi)部及上下文特征信息,充分考慮了輸出序列的聯(lián)合概率分布,在詞性標(biāo)注、實(shí)體識(shí)別等自然語(yǔ)言處理任務(wù)中取得了不錯(cuò)的成績(jī)。CRF模型屬于判別式模型,使用最多的是線性鏈條件隨機(jī)場(chǎng),x=(x1,…,xn)表示觀察數(shù)據(jù)序列,y=(y1,…,yn)表示狀態(tài)序列,需要計(jì)算的條件概率如下式所示:

      P(y1,…,yn|x1,…,xn)=P(y1,…,yn|x),x=(x1,…,xn),

      (1)

      CRF模型與HMM等模型相比,可以定義數(shù)量更多、種類更豐富的特征函數(shù),同時(shí),特征函數(shù)的權(quán)重沒(méi)有任何限制。我們可以為每個(gè)特征函數(shù)賦予一個(gè)權(quán)值,用以表達(dá)我們對(duì)這個(gè)特征函數(shù)的信任度。假設(shè)tk的權(quán)重系數(shù)是λk,sl的權(quán)重系數(shù)是μl,則CRF由我們所有的tk,λk,sl,μl共同決定。

      (2)

      其中,Z(x)為規(guī)范化因子:

      (3)

      CRF模型的重要任務(wù)就是在訓(xùn)練數(shù)據(jù)中使用最大似然估計(jì)算法,計(jì)算不同特征權(quán)重λ。在模型訓(xùn)練時(shí),通過(guò)函數(shù)L的計(jì)算,使得P(s|o,L)對(duì)數(shù)值最大為1的估計(jì)值。

      (4)

      函數(shù)L計(jì)算出來(lái)后,采用動(dòng)態(tài)規(guī)劃的最短路徑求解方法維特比(Viterbi)算法,求解最可能的狀態(tài)序列并輸出。定義了兩個(gè)局部狀態(tài)進(jìn)行遞推。首先,計(jì)算在時(shí)刻t隱藏狀態(tài)為i的所有可能的狀態(tài)轉(zhuǎn)移路徑i1,i2,...it中的概率最大值,記為δt(i):

      (5)

      由δt(i)的定義可以得到δ的一般遞推公式:

      (6)

      在前一個(gè)局部狀態(tài)的基礎(chǔ)上進(jìn)行第二個(gè)局部狀態(tài)計(jì)算,求得在時(shí)刻t隱藏狀態(tài)為i的所有單個(gè)狀態(tài)轉(zhuǎn)移路徑(i1,i2,...,it-1,i)中概率最大的轉(zhuǎn)移路徑中第t-1個(gè)節(jié)點(diǎn)的隱藏狀態(tài)為Ψt(i),計(jì)算公式為

      (7)

      1.2 專業(yè)醫(yī)學(xué)詞典構(gòu)建

      通用文本和醫(yī)學(xué)文本的特征和用詞方式都存在很大差異,為了提升CRF模型在醫(yī)學(xué)文本中的實(shí)體識(shí)別效果,需要構(gòu)建專業(yè)的醫(yī)學(xué)詞典。構(gòu)建的步驟:利用爬蟲從丁香醫(yī)生、百度百科等網(wǎng)站上爬取相關(guān)醫(yī)學(xué)知識(shí)。對(duì)爬取的醫(yī)學(xué)文本進(jìn)行中文分詞、去除噪音以及人工標(biāo)注等操作,形成專業(yè)醫(yī)學(xué)詞典。實(shí)驗(yàn)數(shù)據(jù)集采用CCKS2017電子病歷文件,因此醫(yī)學(xué)詞典的標(biāo)注按照身體部位(Body)、檢查手段(CHeck)、疾病名稱(Disease)、癥狀(Signs)和治療手段(Treatment)五種實(shí)體類型進(jìn)行標(biāo)注,規(guī)范如下:

      (1)身體部位:患者全身的各個(gè)部位,比如“咽部”、“雙肺”、“四肢”和“頭顱”等,描述患者各種不適的身體部位。

      (2)疾病名稱:醫(yī)生根據(jù)檢查手段以及臨床經(jīng)驗(yàn),診斷出患者所患疾病,一般以“病”或“癥”“炎”作為實(shí)體的最后一個(gè)詞。比如“支氣管肺炎”和“糖尿病”等。

      (3)癥狀:患者因疾病導(dǎo)致的各種不適或異常表現(xiàn)或者患者在描述自身情況的介紹,比如“頭痛頭暈”“麻木無(wú)力”和“嘔吐”等。

      (4)檢查手段:根據(jù)患者的癥狀描述以及身體部位情況,采用一定的檢查項(xiàng)目進(jìn)行疾病判斷。比如“跟膝腱反射”“雙側(cè)巴氏征”和“腸鳴音”等。

      (5)治療手段:結(jié)合檢查手段,針對(duì)具體疾病給予具體的治療方式和手段,比如“胰島素”、“降壓藥物”和“阿托伐他汀”等。

      2 實(shí)驗(yàn)結(jié)果與分析

      2.1 實(shí)驗(yàn)數(shù)據(jù)集

      采用兩個(gè)公開(kāi)的數(shù)據(jù)集對(duì)模型進(jìn)行評(píng)測(cè),分別是CCKS2017電子病歷數(shù)據(jù)集和簡(jiǎn)歷(Resume)數(shù)據(jù)集,CCKS2017電子病歷數(shù)據(jù)集主要是從電子病歷的角度進(jìn)行專業(yè)醫(yī)學(xué)實(shí)體識(shí)別。因此采用模型驗(yàn)證的數(shù)據(jù)集具有一定的擴(kuò)展性,既有常規(guī)的文本,又有專業(yè)的醫(yī)學(xué)文本。

      CCKS2017電子病歷數(shù)據(jù)集包括7種實(shí)體名稱,分別是身體部位(Body)、檢查手段(Check)、疾病名稱(Disease)、癥狀(Signs)和治療手段(Treatment)。訓(xùn)練集中各實(shí)體的數(shù)量如表1所示。

      表1 CCKS2017數(shù)據(jù)集訓(xùn)練集各實(shí)體數(shù)量

      簡(jiǎn)歷數(shù)據(jù)集(Resume)包含7種實(shí)體名稱,分別是國(guó)籍(CONT)、姓名(NAME)、學(xué)歷(EDU)、職稱(TITLE)、公司(ORG)、民族(RACE)、專業(yè)(PRO)和籍貫(LOC)。訓(xùn)練集中各實(shí)體的數(shù)量如表2所示。

      表2 Resume數(shù)據(jù)集訓(xùn)練集各實(shí)體數(shù)量

      2.2 數(shù)據(jù)集標(biāo)注與評(píng)價(jià)指標(biāo)

      文本中的實(shí)體識(shí)別,通常需要對(duì)數(shù)據(jù)集進(jìn)行序列標(biāo)注,進(jìn)而實(shí)現(xiàn)不同的實(shí)體識(shí)別。數(shù)據(jù)集主要采用BMES標(biāo)注體系。在CCKS2017數(shù)據(jù)集中,以實(shí)體Treatment為例,“B- Treatment”表示治療手段實(shí)體的首字符,“M- Treatment”表示治療手段的中間字符,“E- Treatment”表示治療手段實(shí)體的最后一個(gè)字符,“S- Treatment”表示單獨(dú)的治療手段實(shí)體,“O”表示5個(gè)實(shí)體外的其他字符。在簡(jiǎn)歷數(shù)據(jù)集(Resume)中,以實(shí)體LOC為例,“B- LOC”表示籍貫實(shí)體的首字符,“M- LOC”表示籍貫實(shí)體的中間字符,“E- LOC”表示籍貫實(shí)體的最后一個(gè)字符,“S- LOC”表示單獨(dú)的籍貫實(shí)體,“O”表示8個(gè)實(shí)體外的其他字符。

      采用通過(guò)精確率(Precision)、召回率(Recall)、F1值和精確率(Accuracy)對(duì)模型評(píng)價(jià),驗(yàn)證本文模型的有效性。

      (11)

      (12)

      (13)

      Acc=(Tp+Tn)/(Tp+Fn+Tn+Fp),

      (14)

      其中,Tp表示真正例,F(xiàn)p表示假正例,Tn表示正負(fù)例,F(xiàn)n表示假負(fù)例。

      采用Pytorch平臺(tái)搭建實(shí)驗(yàn)環(huán)境,具體配置如表3所示。

      表3 模型實(shí)驗(yàn)配置環(huán)境

      續(xù)表3

      2.3 實(shí)驗(yàn)結(jié)果

      為了對(duì)提出的模型進(jìn)行評(píng)價(jià),分別對(duì)簡(jiǎn)歷數(shù)據(jù)集(Resume)和CCKS2017電子病歷數(shù)據(jù)集進(jìn)行評(píng)測(cè),其中針對(duì)Resume數(shù)據(jù)集,采用CRF模型進(jìn)行評(píng)測(cè),CCKS2017電子病歷數(shù)據(jù)集分別采用CRF模型和CRF模型+詞典進(jìn)行評(píng)測(cè),結(jié)果如表4和表5所示。

      表4 簡(jiǎn)歷數(shù)據(jù)集(Resume)測(cè)評(píng)結(jié)果

      表5 CCKS2017電子病歷數(shù)據(jù)集測(cè)評(píng)結(jié)果

      從表4可以看出,CRF模型對(duì)簡(jiǎn)歷數(shù)據(jù)集(Resume)取得了不錯(cuò)的效果,準(zhǔn)確率為93.71%,召回值93.01,F(xiàn)值達(dá)到93.38。簡(jiǎn)歷數(shù)據(jù)集中的文本類型是普通文本,CRF模型能取得較不錯(cuò)的評(píng)測(cè)效果。國(guó)籍(CONT)和民族(RACE)兩個(gè)實(shí)體,F(xiàn)值達(dá)到100,因?yàn)檫@兩個(gè)實(shí)體字段比較固定,不容易產(chǎn)生歧義,模型能夠高效的進(jìn)行區(qū)分和識(shí)別。但對(duì)公司(ORG)和專業(yè)(PRO)這兩個(gè)實(shí)體識(shí)別效果相對(duì)較差,因?yàn)閷I(yè)和公司名稱眾多,同時(shí)容易產(chǎn)生混淆,比如專業(yè)名稱“臨床醫(yī)學(xué)專業(yè)”、“中醫(yī)臨床醫(yī)學(xué)專業(yè)”和“中西醫(yī)臨床醫(yī)學(xué)專業(yè)”等。

      從表5可以看出,在CCKS2017電子病歷數(shù)據(jù)集中,實(shí)體Disease和Treatment在訓(xùn)練集中的數(shù)量分別是515個(gè)和813個(gè),而Signs、Body和Check的數(shù)量分別為6 486個(gè)、8 942個(gè)和7 987個(gè)。實(shí)體Disease和Treatment的評(píng)測(cè)效果相對(duì)降低,召回值只有70.06和72.26,表明訓(xùn)練集中實(shí)體數(shù)量多少直接影響模型的測(cè)評(píng)性能。

      相對(duì)于簡(jiǎn)歷數(shù)據(jù)集(Resume),CCKS2017電子病歷數(shù)據(jù)集模型評(píng)測(cè)效果相對(duì)較差,準(zhǔn)確率、召回值和F值分別為89.32、88.00和88.54。這是因?yàn)獒t(yī)學(xué)文本中的醫(yī)學(xué)實(shí)體長(zhǎng)度不定、結(jié)構(gòu)復(fù)雜和專業(yè)術(shù)語(yǔ)較多等原因?qū)е翪RF模型在醫(yī)學(xué)文本上識(shí)別效果較低。為了提高CRF在醫(yī)學(xué)文本中的識(shí)別效果,文章提出將醫(yī)學(xué)詞典結(jié)合CRF模型進(jìn)行評(píng)測(cè),評(píng)測(cè)效果取得了一定程度地提升,CCKS2017電子病歷數(shù)據(jù)集模型的準(zhǔn)確率、召回值和F值分別為94.04、94.18和94.06,表明本文提出的模型結(jié)構(gòu)的有效性。

      3 結(jié)語(yǔ)

      在對(duì)中文實(shí)體識(shí)別分析的基礎(chǔ)上,對(duì)比分析CRF模型在通用文本和醫(yī)學(xué)文本中實(shí)體識(shí)別的效果。實(shí)證結(jié)果表明,CRF模型在通用文本中取得了較為理想的測(cè)評(píng)效果,但由于醫(yī)學(xué)文本中的醫(yī)學(xué)實(shí)體長(zhǎng)度不定、結(jié)構(gòu)復(fù)雜和專業(yè)術(shù)語(yǔ)較多, CRF模型在醫(yī)學(xué)文本上識(shí)別效果較低。為了提升在醫(yī)學(xué)文本上的識(shí)別效果,構(gòu)建了專業(yè)的醫(yī)學(xué)詞典,實(shí)驗(yàn)結(jié)果表明,CRF+詞典的模型能夠有效提升在醫(yī)學(xué)文本中各類醫(yī)學(xué)實(shí)體的識(shí)別效果。本次實(shí)驗(yàn)的數(shù)據(jù)集采用的是BMES標(biāo)注體系,后續(xù)還需要對(duì)BIO標(biāo)注體系和BIEOS等標(biāo)注體系進(jìn)行對(duì)比研究。

      猜你喜歡
      評(píng)測(cè)病歷詞典
      強(qiáng)迫癥病歷簿
      次時(shí)代主機(jī)微軟XSX全方位評(píng)測(cè)(下)
      次時(shí)代主機(jī)微軟XSX全方位評(píng)測(cè)(上)
      “大數(shù)的認(rèn)識(shí)”的診斷病歷
      米沃什詞典
      文苑(2019年24期)2020-01-06 12:06:50
      攻坡新利器,TOKEN VENTOUS評(píng)測(cè)
      評(píng)《現(xiàn)代漢語(yǔ)詞典》(第6版)
      詞典例證翻譯標(biāo)準(zhǔn)探索
      Canyon Ultimate CF SLX 8.0 DI2評(píng)測(cè)
      為何要公開(kāi)全部病歷?
      临城县| 石嘴山市| 许昌县| 青龙| 如皋市| 施甸县| 永仁县| 建水县| 塔城市| 咸阳市| 焦作市| 永州市| 商都县| 西峡县| 招远市| 南召县| 开封市| 和顺县| 米泉市| 苏尼特左旗| 石景山区| 迁安市| 平江县| 台湾省| 三明市| 东乡族自治县| 五台县| 镇赉县| 瓮安县| 平凉市| 黄山市| 汽车| 彭州市| 墨玉县| 阜城县| 宁武县| 抚松县| 兴和县| 阿拉善右旗| 金坛市| 兴安县|