• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      NLP在中醫(yī)醫(yī)案癥狀信息自動(dòng)化抽取中的應(yīng)用研究

      2021-03-12 07:00:44屈丹丹胡孔法
      軟件導(dǎo)刊 2021年2期
      關(guān)鍵詞:醫(yī)案分詞詞典

      屈丹丹,楊 濤,胡孔法

      (南京中醫(yī)藥大學(xué)人工智能與信息技術(shù)學(xué)院,江蘇南京 210023)

      0 引言

      中醫(yī)醫(yī)案是中醫(yī)臨床診斷、治療的實(shí)錄,其保存了大量疾病診療一手資料,是醫(yī)家臨床經(jīng)驗(yàn)和辨治特點(diǎn)的集中反映,已成為中醫(yī)學(xué)術(shù)研究和名老中醫(yī)經(jīng)驗(yàn)及學(xué)術(shù)思想傳承的重要資源[1]。因此,充分挖掘與利用醫(yī)案信息、提煉名老中醫(yī)診療經(jīng)驗(yàn),將會(huì)給人們的健康帶來福祉。然而,中醫(yī)醫(yī)案在記錄過程中存在主觀因素過多、隨意性強(qiáng)、結(jié)構(gòu)復(fù)雜等問題。大量醫(yī)案信息不能直接指導(dǎo)臨床實(shí)踐,而是需要提煉、總結(jié)與學(xué)習(xí),若采用傳統(tǒng)人工方式進(jìn)行整理與總結(jié),耗時(shí)耗力。

      近年來,隨著科學(xué)技術(shù)的迅猛發(fā)展,將人類語言轉(zhuǎn)化為機(jī)器語言的自然語言處理技術(shù)(Natural Language Pro?cessing,NLP)逐漸被人們所熟知,并得到了廣泛應(yīng)用。自然語言處理作為一個(gè)多學(xué)科交叉研究領(lǐng)域,涉及多種應(yīng)用技術(shù),包括信息抽取、文本挖掘、機(jī)器翻譯等[2]。信息抽取(Information Extraction,IE)是一種能從海量數(shù)據(jù)中準(zhǔn)確、快速抽取出人們感興趣的事實(shí)信息,并將其以結(jié)構(gòu)化形式存儲(chǔ)起來的技術(shù)[3]。在醫(yī)學(xué)領(lǐng)域,國外許多學(xué)者將醫(yī)學(xué)術(shù)語庫和自然語言處理技術(shù)相結(jié)合對(duì)醫(yī)案進(jìn)行信息抽取,且取得了不錯(cuò)的成效。但由于中文語言的特殊性,使得中文臨床醫(yī)案信息抽取成為一項(xiàng)具有挑戰(zhàn)性的任務(wù)。其中,陳德華等[4]主要借助詞庫,利用文本聚類的方法從病理文本中提取出模板信息用于文本結(jié)構(gòu)化處理,該方法具有較好的結(jié)構(gòu)化處理效果,但其詞庫構(gòu)建需要人工進(jìn)行整理,且兼容性較差;楊兵等[5]針對(duì)專業(yè)性強(qiáng)、內(nèi)容豐富的醫(yī)學(xué)領(lǐng)域文本數(shù)據(jù)提出一種結(jié)構(gòu)化信息抽取方法,主要利用文本聚類和關(guān)鍵詞提取生成醫(yī)學(xué)術(shù)語庫,再根據(jù)語法規(guī)則抽取關(guān)鍵指標(biāo)實(shí)現(xiàn)醫(yī)學(xué)文本結(jié)構(gòu)化信息的抽取,該方法信息抽取精度較高,但計(jì)算時(shí)間長,且時(shí)效性較差;吳歡等[6]利用基于規(guī)則的方法對(duì)乳腺癌病理報(bào)告進(jìn)行信息抽取,雖然方法簡單、快速、易于實(shí)現(xiàn),但前期需要人工大量進(jìn)行歸納與總結(jié),且通用性差。

      鑒于此,本研究嘗試從自然語言處理技術(shù)入手,利用Word2vec 方法進(jìn)行中醫(yī)醫(yī)案癥狀信息的自動(dòng)化抽取,并將抽取結(jié)果與TFIDF 進(jìn)行對(duì)比分析,探討更適用于中醫(yī)醫(yī)案癥狀信息抽取的研究思路,從而為進(jìn)一步的中醫(yī)醫(yī)案自動(dòng)化抽取研究提供參考。

      1 中醫(yī)醫(yī)案信息抽取方法設(shè)計(jì)

      1.1 TFIDF 方法

      在醫(yī)案信息抽取過程中,本研究采用的第一種方法是基于統(tǒng)計(jì)的加權(quán)技術(shù)——術(shù)語頻率—逆文檔頻數(shù)(Term Frequency-Inverse Document Frequency,TF-IDF)。該方法是一種常用于資訊檢索與探測的加權(quán)技術(shù),本研究主要利用其評(píng)估癥狀在醫(yī)案中的重要程度。在研究中,TF 表示某個(gè)癥狀在醫(yī)案中出現(xiàn)的頻率,即:

      其中,im,n表示某個(gè)癥狀m 在醫(yī)案n 中出現(xiàn)次數(shù),本研究規(guī)定表示在醫(yī)案n 中出現(xiàn)的所有癥狀次數(shù)之和。

      IDF 是一種度量癥狀普遍重要性(“權(quán)重”)的方法,以逆文本頻率指數(shù)表示,即:

      其中,|D|表示語料庫中醫(yī)案總數(shù),|Dtm|表示包含該癥狀的醫(yī)案數(shù),1+|Dtm|表示防止當(dāng)癥狀m 在醫(yī)案集合中不存在而出現(xiàn)分母|Dtm|為0 的情況。根據(jù)公式(2)可以看出,某個(gè)癥狀在醫(yī)案集合中出現(xiàn)的次數(shù)越多,該癥狀的IDF 值反而越小,即表示該癥狀區(qū)分醫(yī)案的能力越弱。因此,癥狀在醫(yī)案集合中出現(xiàn)次數(shù)與IDF 值之間是一個(gè)反比關(guān)系。某個(gè)癥狀的重要性與其出現(xiàn)的詞頻成正比,與其在醫(yī)案集中出現(xiàn)的頻率成反比,即一個(gè)癥狀在醫(yī)案中出現(xiàn)頻率越高,而醫(yī)案集中包含該癥狀的醫(yī)案數(shù)越少,則其得到的TF-IDF值越高,也即表示其越重要。

      1.2 Word2vec 方法

      Word2vec 模型是本研究用于醫(yī)案信息抽取的第二種方法。Word2vec 于2013 年由Mikolov 等[7]提出,是一種神經(jīng)網(wǎng)絡(luò)概率語言模型,其主要目的是將詞語轉(zhuǎn)換為包含語義的詞向量,從而達(dá)到詞與詞之間關(guān)系、與上下文關(guān)系都能以某種程度被表達(dá)出來的目的[8]。之后,Mikolov 等又通過對(duì)Word2vec 訓(xùn)練出的詞向量進(jìn)行距離計(jì)算,可有效發(fā)現(xiàn)語料庫中相近的詞匯[9]。Word2vec 模型一般分為CBOW和Skip-gram 兩個(gè)基礎(chǔ)模型[10],其中CBOW 模型是基于數(shù)據(jù)上下文內(nèi)容預(yù)測目標(biāo)詞,而Skip-gram 模型思路與之相反。Skip-gram 主要根據(jù)指定詞預(yù)測該指定詞的上下文詞向量,即發(fā)現(xiàn)語料庫中局部詞匯之間的共現(xiàn)關(guān)系,也是本研究需要用到的模型。本研究主要思路是將處理后的數(shù)據(jù)映射成一個(gè)多維實(shí)數(shù)向量,在新的高維空間中,癥狀等詞匯會(huì)以詞向量形式存在。相比傳統(tǒng)文本表示方式,Word2vec 生成的詞向量不僅可以避免“維度災(zāi)難”,而且能夠?qū)⒃~匯之間的語義關(guān)系較好地呈現(xiàn)出來。

      K-均值(K-means)算法是一種已知聚類類別數(shù)的劃分算法,且作為一種無監(jiān)督學(xué)習(xí)算法,應(yīng)用較為廣泛。本研究利用Word2vec 中的Skip-gram 模型進(jìn)行醫(yī)案癥狀抽取時(shí)過于依靠指定詞,無法實(shí)現(xiàn)癥狀信息的自動(dòng)化抽取,且抽取結(jié)果受主觀因素影響較大。因此,本研究在此基礎(chǔ)上,利用K-means 聚類算法進(jìn)行醫(yī)案癥狀信息抽取研究。但實(shí)驗(yàn)過程中發(fā)現(xiàn),在處理高維數(shù)據(jù)時(shí),聚類很難保證對(duì)其有效進(jìn)行劃分。因此,研究借助于一種通用的降維和數(shù)據(jù)分析工具——主成分分析法(PCA),通過線性變換將高維空間中的樣本投影到低維空間中,同時(shí)盡可能保留原始數(shù)據(jù)特征[11]。研究在保留原始數(shù)據(jù)95%以上信息的情況下,利用PCA 將Word2vec 生成的高維詞向量降到4 維,再利用K-means 算法進(jìn)行劃分。實(shí)驗(yàn)選取K 個(gè)聚類中心,計(jì)算各個(gè)詞匯與聚類中心的距離,通過不斷迭代得到最終聚類結(jié)果。通過對(duì)聚類結(jié)果進(jìn)行purity 評(píng)價(jià)發(fā)現(xiàn),當(dāng)K=2 時(shí),purity 值最高,為0.92。最后,實(shí)驗(yàn)選擇癥狀明顯較多的一組作為醫(yī)案信息抽取最終結(jié)果,實(shí)現(xiàn)中醫(yī)醫(yī)案癥狀信息的自動(dòng)化抽取。

      1.3 醫(yī)案信息抽取方法流程

      本研究先從原始數(shù)據(jù)中抽取出實(shí)驗(yàn)所需數(shù)據(jù),再對(duì)抽取出的醫(yī)案數(shù)據(jù)進(jìn)行預(yù)處理,之后進(jìn)入分詞操作階段。但在研究過程中發(fā)現(xiàn),由于缺乏較完整、系統(tǒng)化的心系醫(yī)案相關(guān)癥狀術(shù)語集,導(dǎo)致現(xiàn)有分詞工具分詞效果較差,需創(chuàng)建自定義心系醫(yī)案癥狀詞典。因此,本文的分詞和去停用詞操作是在構(gòu)建后的詞典基礎(chǔ)上進(jìn)行的。最后利用TFIDF和Word2vec 方法分別對(duì)醫(yī)案癥狀相關(guān)信息進(jìn)行自動(dòng)化抽取,并通過精確率、召回率評(píng)估兩種方法的優(yōu)劣。醫(yī)案信息抽取流程如圖1 所示。

      Fig.1 Medical information extraction process圖1 醫(yī)案信息抽取流程

      2 算法實(shí)驗(yàn)

      2.1 數(shù)據(jù)來源

      本文實(shí)驗(yàn)數(shù)據(jù)來源于某三甲中醫(yī)醫(yī)院心內(nèi)科的438 條臨床數(shù)據(jù),數(shù)據(jù)真實(shí)可靠。原始數(shù)據(jù)以Excel 形式存在,主要內(nèi)容包括:總編號(hào)、病歷號(hào)、來源、姓名、性別、年齡、診次、就診日期、病史、方藥等內(nèi)容。由于本次研究主要針對(duì)心系醫(yī)案的癥狀相關(guān)信息進(jìn)行抽取,而病史中包含了病人大量癥狀信息,因此病史相關(guān)數(shù)據(jù)是研究中需要重點(diǎn)挖掘的內(nèi)容。

      2.2 數(shù)據(jù)清洗

      數(shù)據(jù)清理主要通過填寫缺失值、光滑噪聲數(shù)據(jù)、識(shí)別或刪除離群點(diǎn)并解決格式的不一致性,達(dá)到格式標(biāo)準(zhǔn)化、清除異常與重復(fù)數(shù)據(jù)、糾正錯(cuò)誤的目的[12]。因此,為提高醫(yī)案信息抽取的準(zhǔn)確性,本研究對(duì)原始數(shù)據(jù)中存在的前后詞語不一致問題進(jìn)行預(yù)處理,處理結(jié)果如表1 所示。

      2.3 分詞與去停用詞

      分詞操作是醫(yī)案信息抽取的基礎(chǔ),本研究采用的是Py?thon 的jieba 分詞。jieba 分詞是一種應(yīng)用較為廣泛的概率語言模型分詞工具,其主要任務(wù)是在切分得到的所有結(jié)果中求某個(gè)切分方案S,使得P(S)最大。由于本研究是對(duì)特定領(lǐng)域進(jìn)行分詞,jieba 的基礎(chǔ)庫中并沒有醫(yī)學(xué)領(lǐng)域?qū)S性~匯,因此需要?jiǎng)?chuàng)建自定義詞典。創(chuàng)建本研究所需的心系醫(yī)案數(shù)據(jù)詞典流程描述如下:①讀取100 條心系醫(yī)案數(shù)據(jù),jieba 分詞并進(jìn)行去停用詞操作;②構(gòu)建詞典:遍歷分詞結(jié)果,構(gòu)建“字詞—頻數(shù)”詞典,按詞頻降序排列:{‘word’:freq},之后遍歷詞典,保留詞數(shù)>1 的詞語并進(jìn)行一定的人工干預(yù),構(gòu)建自定義詞典;③讀取100 條醫(yī)案數(shù)據(jù),依據(jù)自定義詞典進(jìn)行jieba 分詞;④保留分詞結(jié)果中詞頻>1 的詞語,與自定義詞典進(jìn)行比較,加入未登錄新詞,更新詞典;⑤重復(fù)步驟③、④,直到全部醫(yī)案數(shù)據(jù)讀取完畢。最終分詞結(jié)果如表2 所示。

      Table 1 Data cleaning表1 數(shù)據(jù)清洗

      Table 2 Word segmentation表2 分詞結(jié)果

      去停用詞是指在信息檢索中,通過對(duì)某些字或詞的過濾,達(dá)到節(jié)省存儲(chǔ)空間、提高搜索效率的目的,也是本研究分詞后需進(jìn)行的操作。停用詞一般為醫(yī)案中出現(xiàn)頻率較高,但與心系醫(yī)案需抽取的癥狀沒有關(guān)聯(lián)或不影響抽取結(jié)果 的 一 些 詞,例 如“患 者”“約”“至”“門 診”“口 服”“我 院”“可以”“但”“仍”“突然”等詞語及常用標(biāo)點(diǎn)符號(hào)。本文選取了493 個(gè)停用詞放于一個(gè)停用詞表中,并將停用詞表存放在以“stopwords.txt”命名的記事本文件中。為提高醫(yī)案信息抽取精確率、減少噪聲數(shù)據(jù)的干擾,本研究在分詞完成后利用Python 的open()函數(shù)加載stopwords 文件,以便對(duì)分詞后的數(shù)據(jù)進(jìn)行去停用詞操作。

      指小腿腓腸肌發(fā)生疼痛性攣縮,孕期任何時(shí)期均可出現(xiàn),夜間發(fā)作較多。這種情況在懷孕5個(gè)月以上孕婦中為多見。系因增大的子宮壓迫下肢神經(jīng)所致,疲倦、寒冷、不合理的體位以及體內(nèi)鈣、磷比例失調(diào)致神經(jīng)系統(tǒng)應(yīng)激功能過強(qiáng),均可促使發(fā)作。

      2.4 評(píng)價(jià)指標(biāo)

      不管在機(jī)器學(xué)習(xí)(ML)、信息搜索(IR)還是自然語言處理(NLP)等領(lǐng)域,評(píng)估是一項(xiàng)不可或缺的操作。本研究規(guī)定抽取到的癥狀為正類,其他為負(fù)類,評(píng)估設(shè)置如表3 所示。

      Table 3 Assessment settings表3 評(píng)估設(shè)置

      評(píng)價(jià)指標(biāo)包括:精確率(precision)、召回率(recall),計(jì)算公式如下:

      其中,TP 表示實(shí)驗(yàn)抽取與人工標(biāo)注相同的癥狀數(shù)量,TP+FP 表示抽取總數(shù)量,F(xiàn)N 表示未抽取到的癥狀數(shù)量。

      3 結(jié)果與分析

      實(shí)驗(yàn)分別選取利用TFIDF 與Word2vec 方法抽取出的前20 條醫(yī)案癥狀信息,并按其重要性排序,結(jié)果如表4 所示。

      Table 4 Top 20 extracted data表4 抽取出的前20 條數(shù)據(jù)

      由表4 可知,TFIDF 根據(jù)權(quán)重值抽取出的20 條數(shù)據(jù)包括:胸悶、胸痛、心悸、氣喘、頭暈等。Word2vec 方法通過計(jì)算與聚類中心的距離抽取出的結(jié)果包括:心悸、胸痛、心慌、胸悶、氣喘等。由此可知,心系醫(yī)案中病人發(fā)病時(shí),往往伴有心悸、胸悶、胸痛、氣喘、頭暈等癥狀的發(fā)生,其結(jié)果與已有文獻(xiàn)[13]的研究結(jié)果相似。

      同時(shí),在實(shí)驗(yàn)不斷探索的過程中,還發(fā)現(xiàn)一個(gè)癥狀的出現(xiàn)往往伴隨另一種癥狀,比如:出現(xiàn)惡心時(shí),往往也伴隨著嘔吐的發(fā)生。由此推論,癥狀與癥狀之間可能也存在著一定聯(lián)系。

      Fig.2 Precision P圖2 精確率P

      Fig.3 Recall R圖3 召回率R

      通過以上實(shí)驗(yàn)發(fā)現(xiàn),由于TFIDF 與Word2vec 方法研究思維模式的不同,抽取效果也呈現(xiàn)出較大差異,其中Word2vec 方法更適用于心系醫(yī)案癥狀抽取研究。對(duì)比兩種癥狀信息抽取方法的準(zhǔn)確率和召回率發(fā)現(xiàn),Word2vec 方法的準(zhǔn)確率和召回率均明顯高于TFIDF。主要原因在于利用TFIDF 方法進(jìn)行中醫(yī)醫(yī)案癥狀信息抽取時(shí),只注重了詞匯與整個(gè)醫(yī)案的聯(lián)系,而忽略了詞匯與其上下文之間的聯(lián)系。但在醫(yī)案信息抽取過程中,上下文之間的聯(lián)系是不可忽略的因素,因而其抽取結(jié)果的精確率和召回率偏低。

      由圖2 可知,隨著抽取個(gè)數(shù)X 的增大,兩種方法的準(zhǔn)確率總體呈下降趨勢,主要原因在于人工標(biāo)注是依據(jù)詞頻大小及標(biāo)注癥狀是否為醫(yī)案中的常見癥狀進(jìn)行綜合考量,具體參照文獻(xiàn)[14],而兩種方法抽取結(jié)果是按其重要性進(jìn)行降序排列。當(dāng)X 為25 時(shí),抽取癥狀與人工標(biāo)注癥狀符合程度較高,對(duì)應(yīng)準(zhǔn)確率也偏高。當(dāng)X>65 時(shí),Word2vec 方法抽取結(jié)果趨于穩(wěn)定,保持在80%左右,TFIDF 方法則在X=95時(shí)趨于穩(wěn)定,只有60%左右。

      由圖3 可知,隨著抽取個(gè)數(shù)X 的不斷增加,利用Word2vec 方法抽取的召回率逐漸趨于100%,而采用IFTDF方法的召回率穩(wěn)定在80%左右。綜上所述,基于Word2vec方法的癥狀抽取結(jié)果與人工標(biāo)注結(jié)果更為接近。

      4 結(jié)語

      本研究利用基于統(tǒng)計(jì)的TFIDF 和Word2vec 方法分別從醫(yī)案數(shù)據(jù)中抽取醫(yī)案癥狀信息。實(shí)驗(yàn)結(jié)果表明:病人發(fā)病時(shí),往往伴有心悸、胸悶、胸痛、氣喘、頭暈等癥狀的發(fā)生,癥狀與癥狀之間也存在一定聯(lián)系。同時(shí),對(duì)比TFIDF 與Word2vec 抽取結(jié)果發(fā)現(xiàn),利用Word2vec 抽取醫(yī)案癥狀信息的效果優(yōu)于TFIDF 方法。主要原因在于醫(yī)案信息抽取過程中,癥狀與其上下文之間的聯(lián)系是必須考慮的因素,而TFIDF 方法恰恰是在忽略上下文之間聯(lián)系的基礎(chǔ)上進(jìn)行的,導(dǎo)致最終抽取結(jié)果的精確率和召回率偏低[15-17]。

      現(xiàn)階段的研究只是初步探索,今后的研究可在此基礎(chǔ)上對(duì)醫(yī)案詞典作進(jìn)一步擴(kuò)展,使其更精確、應(yīng)用范圍更廣。雖然利用Word2vec 方法的抽取效果較佳,但K-means 聚類本身存在時(shí)間復(fù)雜度高的局限性,因此需要進(jìn)一步改進(jìn)算法使其具有更好的擴(kuò)展性,抽取出更多符合語義及實(shí)際情況的癥狀信息,為今后探索各癥狀與癥狀或體征之間的聯(lián)系打下基礎(chǔ)。

      猜你喜歡
      醫(yī)案分詞詞典
      米沃什詞典
      文苑(2019年24期)2020-01-06 12:06:50
      結(jié)巴分詞在詞云中的應(yīng)用
      醫(yī)案聊齋續(xù)篇 吐瀉案
      醫(yī)案聊齋續(xù)篇 晨泄案
      評(píng)《現(xiàn)代漢語詞典》(第6版)
      詞典例證翻譯標(biāo)準(zhǔn)探索
      值得重視的分詞的特殊用法
      新加香薷飲醫(yī)案6則
      古醫(yī)籍中刺絡(luò)放血醫(yī)案淺析
      高考分詞作狀語考點(diǎn)歸納與疑難解析
      永德县| 突泉县| 洪雅县| 渭南市| 太原市| 仙桃市| 渭南市| 且末县| 梅州市| 四平市| 太白县| 额济纳旗| 辽宁省| 淳化县| 红桥区| 延边| 神池县| 色达县| 精河县| 张家口市| 鄂托克旗| 苗栗市| 芒康县| 铁岭市| 天祝| 项城市| 华容县| 白银市| 许昌市| 东港市| 白玉县| 沂源县| 灵宝市| 佛山市| 裕民县| 东兴市| 澎湖县| 盐源县| 会理县| 隆德县| 信阳市|