• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      遠(yuǎn)距離詞性標(biāo)注在電子病歷上的研究

      2017-06-21 23:16徐萬民李燕輝
      無線互聯(lián)科技 2017年5期
      關(guān)鍵詞:處理

      徐萬民 李燕輝

      摘要:詞性標(biāo)注是自然語言處理的一個(gè)重要組成部分,只有正確的標(biāo)注才能使機(jī)器對自然語言理解準(zhǔn)確。目前的詞性標(biāo)注系統(tǒng)只能對近距離的約束關(guān)系分析基本準(zhǔn)確,若存在遠(yuǎn)距離約束關(guān)系,系統(tǒng)基本無法識別。文章基于最大熵模型和遠(yuǎn)距離搭配關(guān)系構(gòu)建出的一種新的標(biāo)注方法,可用于解決遠(yuǎn)距離標(biāo)注可能產(chǎn)生的歧義。

      關(guān)鍵詞:自然語言;處理;詞性標(biāo)注;遠(yuǎn)距離標(biāo)注

      詞性(Part of Speech,POS)是詞匯基本的語法屬性,通常也可稱為詞類。詞性標(biāo)注就是在給定句子中判定每個(gè)詞的語法范疇,確定其詞性并加以標(biāo)注的過程。詞性標(biāo)注是自然語言處理中一項(xiàng)非常重要的基礎(chǔ)性工作。詞性標(biāo)注作為連接分詞與句法的中間步驟,它既能消除一部分由分詞產(chǎn)生的歧義,也能為接下來的句法分析提供正確的分析幫助。

      目前大部分統(tǒng)計(jì)語言模型是N-gram模型,其模型簡單且有效,但是模型也存在缺陷。由于N值有限,模型只能處理短距離語言約束關(guān)系,不能有效處理長距離約束和語言遞歸現(xiàn)象,統(tǒng)計(jì)信息有時(shí)也不能反映真實(shí)的語言規(guī)律,這時(shí),就會有歧義產(chǎn)生。

      目前中文電子病歷還處于空白期,針對中文電子病歷的研究因?yàn)槿狈ψ銐虻恼Z料,研究一直在緩慢地進(jìn)行。相比于通用的語料庫,電子病歷存在標(biāo)準(zhǔn)不統(tǒng)一、各個(gè)醫(yī)生的寫作習(xí)慣不同、存在簡寫或包含專業(yè)詞等情況。這些都無法依靠通用語料庫來解決。

      本文內(nèi)容主要從以下幾個(gè)方面展開:第2節(jié)主要介紹遠(yuǎn)距離詞性標(biāo)注的幾種歧義;第3節(jié)介紹這種標(biāo)注歧義的解決方法;第4節(jié)介紹電子病歷與詞性標(biāo)注的結(jié)合。

      1.遠(yuǎn)距離標(biāo)注歧義

      目前現(xiàn)有的詞性標(biāo)注能解決大部分問題,但是針對歧義以及部分問題存在不足,采用Stanford NLP工具進(jìn)行測試,進(jìn)一步說明問題。

      由于漢語存在一些固定搭配,例如:因?yàn)椤浴?,不僅…而且…等。這些搭配本來應(yīng)該無視中間出現(xiàn)多少詞,都應(yīng)該保持詞性的不變,但現(xiàn)今的大部分模型是根據(jù)概率與統(tǒng)計(jì)的,考慮詞與詞之間的互信息最多也只可能考慮到當(dāng)前詞的前后1-2個(gè)詞。也就是說當(dāng)固定搭配之間存在一定距離時(shí),詞與詞之間的聯(lián)系不強(qiáng),基于統(tǒng)計(jì)的話概率可能不高,這樣對于詞性標(biāo)注很有可能產(chǎn)生歧義,針對這種現(xiàn)象,筆者做了一些測試。

      1.1固定搭配:一…就…

      “一…就…”這種結(jié)構(gòu)一般情況下將其標(biāo)注為副詞詞性,例如下面這句話:

      他/PN一/ADq:/VV就/AD是/VC 30年/NT

      “一”在這里標(biāo)注為副詞(AD)。從北京大學(xué)語料庫CCL中以“一…就…”這種結(jié)構(gòu)提取出189個(gè)句子作為語料進(jìn)行測試,結(jié)果發(fā)現(xiàn):

      (1)他/PN一/AD睡/VV就/AD很/AD難/AD被/SB叫醒/VV。

      (2)他/PN一/CD睡/VV過/AS覺/VV就/AD精力/NN充沛/VA。

      由上面幾個(gè)例子可以看出來,當(dāng)一…就…之間只有一個(gè)詞的時(shí)候,對于“一”的標(biāo)注都為副詞,標(biāo)注正確。但是兩者之間有兩個(gè)詞的時(shí)候,系統(tǒng)可能將其識別成數(shù)詞。通過測試發(fā)現(xiàn)“一…就…”結(jié)構(gòu)出現(xiàn)錯(cuò)誤一般在將“一”的詞性由副詞詞性標(biāo)注為量詞詞性,通過測試189個(gè)句子發(fā)現(xiàn)出現(xiàn)標(biāo)注錯(cuò)誤的句子有36個(gè),正確率為80.9%。

      1.2固定搭配:從…到…

      從…到…這個(gè)常見的固定結(jié)構(gòu)一般情況下將其標(biāo)為介詞,以北京大學(xué)CCL語料庫中包含“從…到…”結(jié)構(gòu)的751個(gè)句子作為測試語料,運(yùn)用Stanford segmenter以及Stanford postagger作為測試工具,由此可以發(fā)現(xiàn)系統(tǒng)存在以下的情況:

      (1)從/P北極/NR到/P南極/NR太/AD遠(yuǎn)/VA了/SP。

      (2)從/P北京/NR到/P西安/NR有/NE1000/CD公里/M。

      由上面的例子可以看出,當(dāng)“從…到…”之間連接的是一個(gè)詞的時(shí)候,“到”的標(biāo)注一般為介詞詞性(P),這種標(biāo)注正確,但是當(dāng)中間詞過多時(shí),就會出現(xiàn)以下情況:

      (1)從/P寒冷/VA的/DEC北京/NR到/VV溫暖/VA的/DEC西安/NR有/VE 1000/CD公里/M。

      (2)從/P有/VE北極熊/NN存在/VV的/DEC北極/NR到/VV企鵝/NN存在/VV的/DEC南極/NR太/AD遠(yuǎn)/VA了/SP。

      由上面的例子可以看出來,句子主要意思并沒有發(fā)生變化,但是通過增加修飾語,使的“從…到…”之間的距離發(fā)生變化,“到”的詞性由介詞(P)變成了動詞(vv),顯然存在標(biāo)注錯(cuò)誤。

      可以推斷出這種錯(cuò)誤是由于固定搭配之間的距離變遠(yuǎn)了,使系統(tǒng)無法正確識別出來。測試了751個(gè)句子,發(fā)現(xiàn)存在“從…到”標(biāo)注錯(cuò)誤的句子有212個(gè),正確率只有71.8%。

      2.改進(jìn)措施

      針對以上情況,筆者提出以下方案。

      2.1針對“一…就…”結(jié)構(gòu)

      通過上面的測試,可以發(fā)現(xiàn):“一…就…”這個(gè)結(jié)構(gòu)出現(xiàn)時(shí),一般情況下,兩者都標(biāo)注為介詞,但是,我們不能忽略以下情況:

      (1)一個(gè)/CD三角形/NN就/AD是/VC三/CD條/M邊/NN。

      (2)一個(gè)/CD凳子/NN就/AD是/VC四/CD條/M腿/NN。

      當(dāng)“一”后面接的是量詞的情況下,即使存在“一…就…”這個(gè)結(jié)構(gòu),也不能適用這種搭配,這里的“一”只能作為數(shù)詞(CD)成立。所以構(gòu)建模型時(shí)不能忽視這種情況,因此,可以將特征函數(shù)定義為:

      定義解釋為:當(dāng)存在“一…就…”結(jié)構(gòu),先判斷“一”后面的詞性標(biāo)注是否為量詞(M),若不是則標(biāo)注“一”為副詞(AD);若是則標(biāo)注為數(shù)詞(CD)。

      2.2對于“從…到…”結(jié)構(gòu)

      “從…到…”結(jié)構(gòu)可以看作是“from…to…”結(jié)構(gòu),一般可將“到”標(biāo)注為介詞(P),但是,通過試驗(yàn)發(fā)現(xiàn)這種結(jié)構(gòu)也會存在一些特例:

      (1)從/P資本主義/NN過渡/VV到/VV社會主義/NN。

      (2)從/P原始社會/NN進(jìn)步/VV到/vv現(xiàn)代/JJ社會/NN。

      雖然有“從…到…”結(jié)構(gòu)存在,但因?yàn)橛小暗健鼻懊娲嬖谶^渡這個(gè)動詞,所以這里的“到”標(biāo)注為動詞(v)是合理的。構(gòu)建模型時(shí),仍需要考慮這種情況的發(fā)生。整合一下兩種情況,可以將特征函數(shù)定義為:

      定義解釋為:當(dāng)存在“從…到…”結(jié)構(gòu),先判斷“到”前面的詞性標(biāo)注是否為動詞(vv),若不是則標(biāo)注“一”為介詞(P);若是則標(biāo)注為動詞(vv)。

      但也可能存在這種情況:在/P從/P個(gè)體/NN學(xué)習(xí)/VV到/VV合作/BIN學(xué)習(xí)/VV的/DEC觀念/NN轉(zhuǎn)變/VV過程中/NN。

      雖然“到”的前面接的是動詞(vv),但是個(gè)體學(xué)習(xí)和合作學(xué)習(xí)是類似概念,這里“到”與學(xué)習(xí)并不是修飾關(guān)系,個(gè)體學(xué)習(xí)和合作學(xué)習(xí)都應(yīng)該為名詞(NN),這里屬于標(biāo)注錯(cuò)誤,若標(biāo)注為名詞,這項(xiàng)規(guī)則依然成立。

      3.詞性標(biāo)注與電子病歷結(jié)合

      目前國內(nèi)外的詞性標(biāo)注都是以有監(jiān)督的學(xué)習(xí)方式作為主要研究方向,通過與規(guī)則相結(jié)合,增加領(lǐng)域詞典來解決語料匱乏造成的歧義問題。

      通過收集電子病歷,可以發(fā)現(xiàn)電子病歷一般含有以下幾個(gè)板塊:

      現(xiàn)病史:描述患者的現(xiàn)在病情狀況。過去史:記錄患者以往的病情狀況。各器官病史:描述各個(gè)系統(tǒng)有無不良癥狀。家庭史及個(gè)人環(huán)境:患者家庭是否存在遺傳病史和患者周圍環(huán)境因素對病情的影響。診斷結(jié)果:醫(yī)生根據(jù)病況對患者病情下定義。

      通過對這些數(shù)據(jù)進(jìn)行提取和分析,發(fā)現(xiàn)這些語料存在以下特點(diǎn):

      專業(yè)詞匯過多:腦梗塞、淺表淋巴結(jié)等;句法結(jié)構(gòu)過于簡單:無強(qiáng)直、無反跳疼、無鼻出血等;存在特殊符號及專業(yè)英文字符:質(zhì)中觸疼(+)、HBsAg、抗HCv等。

      4.對于固定搭配無法理解:一…就…與從…到…

      前3項(xiàng)特點(diǎn)可以通過擴(kuò)充領(lǐng)域詞庫或者建立特定領(lǐng)域詞庫來解決,句法結(jié)構(gòu)簡單可以在句法分析中擴(kuò)充完整結(jié)構(gòu)來彌補(bǔ)分析不準(zhǔn)確。本文主要以遠(yuǎn)距離詞性標(biāo)注來解決固定搭配產(chǎn)生的歧義。

      固定搭配歧義一般出現(xiàn)在患者過去病史、現(xiàn)在病史以及患者周圍環(huán)境這3個(gè)模塊,例如下面這些句子:某患者一接觸堅(jiān)果類食物就會引發(fā)過敏癥狀;患者發(fā)病癥狀從2015年6月3日一直持續(xù)到2015年6月5日;患者家庭是從血吸蟲高度流行區(qū)域搬遷到現(xiàn)在所在地等句子。如果只是以通用系統(tǒng)進(jìn)行分析處理,大部分系統(tǒng)無法識別出這種固定搭配結(jié)構(gòu)。通過添加上文提到的兩個(gè)模型,能有效地處理這種固定搭配引起的分析錯(cuò)誤,為計(jì)算機(jī)正確識別和處理電子病歷奠定基礎(chǔ)。

      5.結(jié)語

      本文針對遠(yuǎn)距離產(chǎn)生詞性標(biāo)注錯(cuò)誤的案例進(jìn)行分析,在Stanford NLP工具的基礎(chǔ)上提出了一種對于遠(yuǎn)距離的標(biāo)注方法,先對固定搭配所出現(xiàn)的語言現(xiàn)象進(jìn)行分析,總結(jié)出其規(guī)律。根據(jù)總結(jié)出來的固定搭配構(gòu)建一個(gè)規(guī)則庫,當(dāng)系統(tǒng)匹配到固定搭配時(shí),針對相應(yīng)的規(guī)則對其進(jìn)行精確標(biāo)注。將總結(jié)出的規(guī)則庫用在電子病歷上進(jìn)行分析,針對某些特殊的固定搭配有著良好的識別能力。但由于目前統(tǒng)計(jì)的固定搭配還不算完整,所以后期工作還要繼續(xù)完善相應(yīng)的工作。

      猜你喜歡
      處理
      一起500 kV變壓器鐵芯多點(diǎn)接地故障診斷與處理①
      利用核心網(wǎng)網(wǎng)絡(luò)優(yōu)化系統(tǒng)定位用戶投訴問題
      橋梁軟土基礎(chǔ)處理應(yīng)用
      固原市| 门头沟区| 江阴市| 庆城县| 黄石市| 盐津县| 昌乐县| 岚皋县| 寻乌县| 平南县| 荃湾区| 潍坊市| 青田县| 澄迈县| 马公市| 蚌埠市| 北碚区| 紫阳县| 中江县| 屏东市| 汽车| 太保市| 阿城市| 泰顺县| 繁峙县| 葫芦岛市| 长海县| 额尔古纳市| 临江市| 汽车| 孟津县| 东城区| 台南市| 双柏县| 衡南县| 兴安盟| 清徐县| 三穗县| 剑川县| 洞口县| 布尔津县|