• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于深度學(xué)習(xí)的慢性肝病CT報(bào)告相似度分析

      2018-08-15 08:15:38常炳國劉清星
      關(guān)鍵詞:詞庫分詞肝病

      常炳國 劉清星

      (湖南大學(xué)信息科學(xué)與工程學(xué)院 湖南 長沙 410082)

      0 引 言

      非結(jié)構(gòu)化數(shù)據(jù)已經(jīng)逐漸成為數(shù)據(jù)挖掘領(lǐng)域的研究熱點(diǎn)之一[1],而醫(yī)學(xué)文本作為非結(jié)構(gòu)化文本數(shù)據(jù)的一個(gè)重要組成部分,對其進(jìn)行挖掘,將推動(dòng)醫(yī)學(xué)技術(shù)的發(fā)展。醫(yī)學(xué)文本相似度分析主要是計(jì)算實(shí)時(shí)醫(yī)學(xué)文本與各個(gè)歷史醫(yī)學(xué)文本之間的相似程度,從中挖掘出一些相似度高的成功病例,以供醫(yī)生在診斷結(jié)果或治療方法上進(jìn)行參考。

      CT報(bào)告是醫(yī)學(xué)文本數(shù)據(jù)的一類,是病人進(jìn)行CT檢查后得到的文本式診斷報(bào)告,其主要內(nèi)容包括醫(yī)生對影像所見描述和根據(jù)所見及醫(yī)生的經(jīng)驗(yàn)得出的診斷建議結(jié)果。肝CT檢查是診斷慢性肝病過程中對肝部、腹部等部位進(jìn)行掃描的檢查項(xiàng),對于慢性肝病的診斷靈敏度極高[2]。醫(yī)生根據(jù)肝CT影像圖片,對肝臟以及肝臟相關(guān)器官大小、形狀等各方面進(jìn)行綜合描述,進(jìn)而給出適當(dāng)?shù)脑\斷意見。而隨著醫(yī)療數(shù)據(jù)的不斷增加,CT報(bào)告中,高相似度的CT檢查所見文本之間具有高相似度診斷意見,所以經(jīng)驗(yàn)豐富的醫(yī)生的診斷意見對于經(jīng)驗(yàn)不足的醫(yī)生來說具有極大的參考價(jià)值,這可以在一定程度上減少他們的誤診率。

      醫(yī)學(xué)自然語言處理發(fā)展以來,不管是實(shí)體識(shí)別、信息抽取還是相似度計(jì)算[3-4],其基礎(chǔ)都是分詞。盡管中文自然語言處理已經(jīng)有了比較大的發(fā)展,但由于醫(yī)學(xué)語言自身的特征,中科院的NLPIR[5]、復(fù)旦大學(xué)的FNLP[6]等通用的分詞工具在處理專業(yè)領(lǐng)域分詞方面不能達(dá)到令人滿意的效果。此外,國內(nèi)中文醫(yī)學(xué)術(shù)語標(biāo)準(zhǔn)化進(jìn)程不足,國外UMLS[7]等也缺乏對中文的支持。

      論文在研究慢性肝病醫(yī)學(xué)詞庫基礎(chǔ)上,運(yùn)用網(wǎng)絡(luò)爬蟲技術(shù)獲取相關(guān)網(wǎng)站醫(yī)學(xué)詞匯以及自定義否定詞匯表,構(gòu)建了包含約6 000個(gè)醫(yī)學(xué)詞匯的慢性肝病CT報(bào)告分詞詞庫。運(yùn)用基于詞庫與最大匹配規(guī)則相結(jié)合的分詞算法,對肝CT報(bào)告文本進(jìn)行分詞處理。利用Doc2Vec深度學(xué)習(xí)算法獲取CT報(bào)告文本分詞表的句向量,并計(jì)算句向量之間的余弦相似度作為CT報(bào)告文本相似度。

      1 CT報(bào)告數(shù)據(jù)結(jié)構(gòu)

      本文所處理的CT報(bào)告數(shù)據(jù)來自某三甲醫(yī)院去敏感信息后的真實(shí)CT報(bào)告。CT報(bào)告采用自然語言進(jìn)行的文本描述,報(bào)告句式結(jié)構(gòu)是描述對象和對描述對象的描述詞,包括方位詞、副詞、固定結(jié)構(gòu)以及大量的專業(yè)詞匯和否定詞匯,如“未見明顯異常、不規(guī)則縮小”等。論文就CT報(bào)告的檢查所見描述信息進(jìn)行文本相似度計(jì)算與應(yīng)用實(shí)驗(yàn)。表1列出CT報(bào)告的句式結(jié)構(gòu)。

      表1 CT報(bào)告句式結(jié)構(gòu)

      2 處理流程

      2.1 整體框架

      相似度分析過程包括構(gòu)建詞庫以及對文本進(jìn)行相似度計(jì)算兩個(gè)部分,而相似度計(jì)算基于詞典分詞并進(jìn)行調(diào)參等處理,最后得出相似度top前n的文本,整體流程如圖1所示。

      圖1 CT報(bào)告相似度分析整體流程

      2.2 分 詞

      2.2.1 構(gòu)建詞庫

      針對CT報(bào)告文本專業(yè)性強(qiáng)的特點(diǎn),直接利用分詞算法進(jìn)行分詞,會(huì)出現(xiàn)很多醫(yī)學(xué)上關(guān)鍵詞以及文本中的否定詞匯無法被識(shí)別,分詞效果極差。因此,為了提高分詞準(zhǔn)確率以及保證分詞結(jié)果能以最大粒度切分,本文通過自定義醫(yī)學(xué)詞庫來構(gòu)建分詞詞庫,其主要由三大部分組成:醫(yī)學(xué)專業(yè)詞庫、醫(yī)學(xué)否定詞詞庫以及停用詞詞庫。

      醫(yī)學(xué)專業(yè)詞庫分為三個(gè)部分:通過“網(wǎng)絡(luò)爬蟲”爬取醫(yī)學(xué)網(wǎng)站得到的解剖學(xué)等專業(yè)詞匯,從現(xiàn)存醫(yī)學(xué)標(biāo)準(zhǔn)詞庫(SNOMED CT[8]與“搜狗醫(yī)學(xué)詞庫”)中提取的關(guān)鍵詞匯以及影像科醫(yī)生總結(jié)出來的常見的對肝CT進(jìn)行描述的專業(yè)詞匯。其中每一個(gè)詞匯都進(jìn)行了詞性以及詞頻的標(biāo)注,如“肝內(nèi)外膽管 nz 300”,“肝內(nèi)外膽管”是一個(gè)醫(yī)學(xué)專業(yè)詞匯,nz代表其他專有名詞,300代表詞頻。

      醫(yī)學(xué)否定詞詞庫包括兩大部分,一個(gè)部分是具有否定性質(zhì)的專業(yè)詞庫和具有否定性質(zhì)的修飾詞詞匯。例如:“異常強(qiáng)化灶”、“欠光整”、“未見”、“無”等。

      停用詞詞庫包括在報(bào)告文本中具有高頻率,但是其實(shí)際意義又不大的詞。它主要包括了介詞、副詞、語氣助詞、連詞等,通常這種詞的自身并沒有明確意思,只有當(dāng)把它們放到一個(gè)完整的句子中才會(huì)起到一定的作用,例如“大約”、“及”、“一個(gè)”等。

      在構(gòu)建的詞庫過程中,醫(yī)學(xué)專業(yè)詞庫和醫(yī)學(xué)否定詞詞庫會(huì)合并去重形成一個(gè)用作分詞的自定義詞庫,而停用詞詞庫作為分詞中需要過濾的過濾詞詞庫使用。

      2.2.2 數(shù)據(jù)預(yù)處理

      正文在進(jìn)行分詞之前,要對原始數(shù)據(jù)進(jìn)行三個(gè)方面的預(yù)處理。第一,要去掉每條文本記錄中含有的回車符,然后以一條記錄為一句,把所有的文本數(shù)據(jù)導(dǎo)入到同一個(gè)文本文件中,每條文本記錄之間以回車符分隔。第二,根據(jù)自定義的停用詞詞庫,將第一步所形成的文本文件中的“大約”、“一”等停頓詞去掉,將“×”等特殊符號(hào)替換成電腦可識(shí)別的“*”等符號(hào)。第三,為了提高文本相似度,在對文本進(jìn)行分詞之后,根據(jù)自定義含否定性質(zhì)的修飾詞詞庫,將含有否定性質(zhì)詞的短句去掉。例如:“左側(cè)腎盞見一小結(jié)節(jié)狀致密影”和“左側(cè)腎盞未見一小結(jié)節(jié)狀致密影”,去停用詞后分別為“左側(cè)腎盞見小結(jié)節(jié)狀致密影”和“左側(cè)腎盞未見小結(jié)節(jié)狀致密影”,這兩句話除了“見”和“未見”兩個(gè)字的區(qū)別,其他完全一樣,但它們的意思完全相反,相似度為零,所以在預(yù)處理時(shí)會(huì)將含有“未見”等否定修飾詞的短句去掉。

      2.2.3 分詞算法

      在分詞之前必須要對數(shù)據(jù)進(jìn)行預(yù)處理,將各條文本數(shù)據(jù)去換行符等停用詞后,以一條數(shù)據(jù)為一行的方式將全部數(shù)據(jù)記錄導(dǎo)入一個(gè)文本文件里,因此一位病患的CT報(bào)告文本在文本文件里對應(yīng)的是一句。分詞的方法有很多,主要分為三大類:基于理解的分詞方法、基于規(guī)則的分詞方法和基于統(tǒng)計(jì)的分詞方法[9]。因?yàn)橐呀?jīng)構(gòu)建好了比較完善的自定義詞庫,所以本文采用改進(jìn)的規(guī)則與統(tǒng)計(jì)相結(jié)合的方法來對文本進(jìn)行分詞,該方法主要是在基于最大逆向匹配算法的結(jié)巴分詞算法[10]基礎(chǔ)上進(jìn)行改進(jìn),改進(jìn)后效果明顯優(yōu)于結(jié)巴分詞。

      在文獻(xiàn)[11]的研究中,對句子進(jìn)行正向最大匹配和逆向最大匹配切分,然后對切分后的兩種結(jié)果進(jìn)行比較,提出了歧義檢測成功和歧義檢測失敗兩個(gè)概念。即這兩種方式切分的結(jié)果有90%的概率重合且正確,有約9.0%的概率其中必有一個(gè)的結(jié)果是正確的,稱為歧義檢測成功,而兩種切分結(jié)果都是錯(cuò)的或者重合后是錯(cuò)的,只有約1.0%的可能性,稱為歧義檢測失敗。本文基于自定義詞典,結(jié)合兩種不同的切分方法切分得到兩種分詞結(jié)果,對其進(jìn)行以下處理:若它們的分詞個(gè)數(shù)不一樣,則將數(shù)量較少的分詞結(jié)果作為最終分詞結(jié)果;若它們分詞個(gè)數(shù)不一樣,但分詞結(jié)果一樣,則返回任意一個(gè)切分結(jié)果,分詞結(jié)果不一樣,則比較兩個(gè)結(jié)果中單字的個(gè)數(shù),返回單字少的結(jié)果。以切分“左側(cè)腎盞未見小結(jié)節(jié)狀致密影”為例,此時(shí)設(shè)置的最大詞長為“4”,如表2所示。

      表2 分詞算法示例

      2.3 相似度計(jì)算

      針對慢性肝病CT報(bào)告文本數(shù)據(jù)短、專業(yè)性強(qiáng)的特點(diǎn),在對CT報(bào)告文本進(jìn)行分詞之后,選用深度學(xué)習(xí)doc2vec算法對其進(jìn)行句向量表示,再計(jì)算句向量之間的余弦值來確定其相似度。

      2.3.1 詞向量

      自然語言處理(NLP)的問題要轉(zhuǎn)化為計(jì)算機(jī)能夠處理的相關(guān)機(jī)器學(xué)習(xí)問題,首先要處理的事情是將自然語言這些文字符號(hào)語言進(jìn)行數(shù)字化處理。One-hot Representation是最常用的詞表示方法,它采用稀疏矩陣的方式,給每個(gè)詞分配一個(gè)數(shù)字 ID,用一個(gè)很長的向量來表示每個(gè)詞。矩陣的總維度就是詞表大小,當(dāng)前詞維度標(biāo)為1,其他表示為0。例如:“乙肝”表示為 [0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 …],“肝硬化”表示為 [0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 …]。但是這種方法最大的弊端在于:只能表示詞本身而不會(huì)考慮語義距離,即任意兩個(gè)詞之間都沒有聯(lián)系的。例如:“乙肝”和“肝硬化”同屬于慢性肝病,但是這兩個(gè)向量中來看這兩個(gè)詞毫無關(guān)聯(lián)。此外,由于稀疏矩陣高維的表示,可能會(huì)帶來維度災(zāi)害。

      由此,本文采用分布式表示的方法來表示詞向量[12]。它是一種低維空間的密集表示方法,這種方法的優(yōu)點(diǎn)在于便于在詞本身的基礎(chǔ)上,從語義上計(jì)算相關(guān)或相似的詞之間的距離,例如:肝臟[0.792, -0.177, -0.107, 0.109, -0.542, …],每個(gè)維度上的數(shù)值代表著它與其他詞之間的關(guān)聯(lián)度。這種低維空間的表示法不但解決了高維數(shù)稀疏矩陣帶來的災(zāi)難問題,并且還能通過詞之間距離的計(jì)算來挖掘詞與詞之間的關(guān)聯(lián)度,例如:“乙肝”和“感冒”的距離會(huì)遠(yuǎn)遠(yuǎn)小于“乙肝”和“肝硬化”。

      2.3.2 Word2Vec算法進(jìn)行詞向量分析

      基于分布式表示方式,本文利用深度學(xué)習(xí)的思想,采用Word2Vec算法[13],通過訓(xùn)練將文本內(nèi)容中的每個(gè)詞映射成K維實(shí)數(shù)向量(K為超參數(shù)),再通過詞之間的距離(比如cosine相似度、歐氏距離等)來得出在向量空間上的相似度,從而得出詞之間在語義上的相似度。它采用的是一個(gè)三層(輸入層、投影層、輸出層)的神經(jīng)網(wǎng)絡(luò),在對語言模型進(jìn)行建模的同時(shí)來獲得詞在向量空間上的詞向量表示。而基于Log-Bilinear語言模型中的Hierarchical Softmax,Word2Vec有兩種不同的模型進(jìn)行語言建模:連續(xù)詞袋模型CBOW(Continuous Bag of Words)和Skip-gram模型。其中,CBOW模型的目標(biāo)是根據(jù)相鄰詞向量來預(yù)測中間詞的概率,而Skip-gram模型剛好相反,它是根據(jù)中間詞來預(yù)測相鄰詞的概率,主要是通過在語料庫上的不斷迭代,計(jì)算出詞向量。

      以CBOW預(yù)測詞Ct出現(xiàn)的概率為例,其優(yōu)化目標(biāo)函數(shù)的條件概率函數(shù)如下:

      P(Ct|context)=p(Ct-n,Ct-n-1,…,Ct+n)

      (1)

      式中:Ct-n到Ct+n是2n個(gè)詞Ct的上下文context,以O(shè)ne-hot方式進(jìn)行表示并組合成|W|2n維詞向量稀疏矩陣D,|W|是文本中所有詞集合的大小。如圖2所示,神經(jīng)網(wǎng)絡(luò)模型的輸入層節(jié)點(diǎn)就是矩陣D中的行向量D(t-n)到D(t+n),而在投影層會(huì)將這2n維向量進(jìn)行求和累加,形成2n×2n維的向量x,并通過激活函數(shù)tanh的計(jì)算得到一個(gè)向量y,y是一個(gè)|W|×1維的向量,它的每一個(gè)元素yi代表都代表著下一個(gè)詞Ci的未歸一化概率。

      圖2 CBOW三層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型

      然后,在輸出層上使用softmost函數(shù)進(jìn)行歸一化處理,得到t,公式如下:

      t=a+Ktanh(b+Hx)

      (2)

      式中:a表示投影層到輸出層的偏置向量,矩陣K是投影層到輸出層的權(quán)重,矩陣H是輸入層到投影層的權(quán)重,b是輸入層到投影層的偏置向量。

      最后,在輸出層會(huì)對應(yīng)形成一棵以語料庫中出現(xiàn)過的詞為葉子結(jié)點(diǎn)、以各詞在語料庫中出現(xiàn)次數(shù)為權(quán)值的huffman樹,并輸出Ct的詞向量。

      Skip-gram模型與CBOW很相似,只是Skip-gram模型不是選取2n個(gè)上下文作為輸入層的輸入,而是直接以當(dāng)前詞為樣本中心,恒等投影到投影層,最終在輸出層得到一棵huffman樹。

      由此可知,通過三層神經(jīng)網(wǎng)絡(luò)模型進(jìn)行語言建模,根據(jù)上下文信息進(jìn)而獲得詞向量表示,使得語義信息在詞本身的基礎(chǔ)上變得更加豐富。

      2.3.3 Doc2Vec算法進(jìn)行詞向量分析

      基于Word2Vec詞向量表示模型對詞的維度進(jìn)行語義分析,文獻(xiàn)[14]提出了Doc2Vec模型,該模型主要是對可變長度文本的上下文進(jìn)行語義分析,并對文本進(jìn)行句向量表示。而以此模型為基礎(chǔ),最后通過文本句向量計(jì)算文本各段落之間的距離就可以得到其相似度。

      相對Word2Vec的兩種CBOW模型與Skip-grim模型,Doc2Vec模型也存在兩種語言建模方法:Distributed Memory(PV-DM) 模型和 Distributed Bag of Words(PV-DBOW)模型。PV-DM模型在CBOW模型的基礎(chǔ)上進(jìn)行改進(jìn),即在給定上下文和段落向量的情況下預(yù)測單詞的概率。而PV-DBOW 模型則是基于Skip-grim模型,在僅給定段落向量的情況下預(yù)測段落中一組隨機(jī)單詞的概率。

      Doc2Vec的兩種語言模型在Word2Vec的兩種語言模型的基礎(chǔ)上做以下兩個(gè)改進(jìn):一個(gè)是會(huì)在訓(xùn)練過程中給訓(xùn)練語料庫中的每一個(gè)句子都新增一個(gè)唯一的編號(hào)(PI),這個(gè)編號(hào)和句子中的詞一樣,會(huì)先被映射成一個(gè)向量(PV)。在之后投影層的計(jì)算里,會(huì)將PV和句子的詞向量進(jìn)行累加或者連接,作為輸出層歸一化函數(shù)softmax的輸入。在整個(gè)訓(xùn)練過程中,每個(gè)句子的PI是保持不變的,而且它們共享著同一個(gè)PV,這就相當(dāng)于每次在預(yù)測單詞或者上下文的概率時(shí),都利用了整個(gè)句子的語義進(jìn)行分析。另一個(gè)是會(huì)在進(jìn)行預(yù)測階段重新給待預(yù)測的句子分配一個(gè)編號(hào)(PI),而此時(shí)的詞向量以及輸出層中歸一化函數(shù)softmax的參數(shù)保持訓(xùn)練時(shí)得到的參數(shù)不變,然后利用梯度下降法訓(xùn)練所有參數(shù),使其待收斂后,即得到待預(yù)測句子的PV。如圖3所示,以PV-DM模型的訓(xùn)練過程為例。

      圖3 PV-DM模型訓(xùn)練過程

      PV-DBOW模型的訓(xùn)練過程和Skip-gram模型的很相似,不同的是根據(jù)文檔向量來預(yù)測上下文單詞出現(xiàn)的概率。在實(shí)驗(yàn)中會(huì)將由Doc2Vec算法的兩種模型訓(xùn)練而來的詞向量進(jìn)行拼接使用。

      2.3.4 相似度計(jì)算

      由Doc2Vec得到經(jīng)過處理的醫(yī)療文本每個(gè)句子的句向量之后,接下來就是計(jì)算句向量之間的距離,從而匹配出與預(yù)測句子最相似的句子。本文采用計(jì)算兩句向量之間余弦值的方法來確定句向量之間的距離,從而確定每個(gè)句子之間的相似度,同樣地在對句向量進(jìn)行余弦值計(jì)算的時(shí)候,每個(gè)句子都會(huì)被分配一個(gè)唯一的ID。那么,對于兩個(gè)n維的向量S和T,S=(s1,s2,…,sn)和T=(t1,t2,…,tn),其余弦值的計(jì)算公式是:

      (3)

      計(jì)算得到的余弦值是一個(gè)大于等于0、小于等于1的數(shù),用這個(gè)數(shù)就可以表示每個(gè)文本之間的相似程度。本文進(jìn)行多次實(shí)驗(yàn)后,給相似度設(shè)置了一個(gè)閾值,輸出top前n個(gè)具有醫(yī)學(xué)參考價(jià)值文本。

      3 實(shí)驗(yàn)分析

      實(shí)驗(yàn)研究選擇某三甲醫(yī)院6 900份真實(shí)的肝病影像報(bào)告,包括5 100份CT報(bào)告,1 800份超聲檢查報(bào)告。

      對實(shí)驗(yàn)參數(shù)進(jìn)行設(shè)置,通過反復(fù)調(diào)節(jié),選擇詞向量的維度為18、訓(xùn)練窗口為9即上下文的選詞個(gè)數(shù)為9時(shí),相對其他組合的參數(shù)來說,在算法執(zhí)行過程中具有較好的分類性能,且算法時(shí)間復(fù)雜度最小。當(dāng)?shù)螖?shù)為30時(shí),對一個(gè)文本進(jìn)行多次相似度計(jì)算所得的相似文本結(jié)果較穩(wěn)定。在計(jì)算余弦相似度時(shí),其閾值設(shè)置為0.7時(shí),獲得的相似文本對醫(yī)生給出診斷意見具有較高的參考價(jià)值。

      3.1 分詞算法比較

      基于自定義的醫(yī)療詞庫,在結(jié)巴分詞的基礎(chǔ)上對分詞算法進(jìn)行改進(jìn),改進(jìn)后算法的準(zhǔn)確率以及召回率明顯高于結(jié)巴分詞。將自定義詞庫兩種算法之中進(jìn)行分詞比較,如表3所示。

      表3 分詞算法比較

      其中,召回率指的是正確的分詞個(gè)數(shù)與分詞標(biāo)答的比值,而準(zhǔn)確率指的是正確的分詞個(gè)數(shù)與分詞結(jié)果的比值,但是由于它們屬于此消彼長的關(guān)系,所以采用F值來綜合判定并比較它們的效果,計(jì)算公式如下:

      (4)

      可見,改進(jìn)后分詞的效果要比結(jié)巴分詞的效果要好,且它的準(zhǔn)確率達(dá)到了87 %,這為下一步醫(yī)療文本相似度的計(jì)算打下了良好的基礎(chǔ)。

      3.2 實(shí)驗(yàn)應(yīng)用

      實(shí)驗(yàn)研究應(yīng)用于醫(yī)院影像科室,醫(yī)生將患者CT檢查所得輸入到相應(yīng)的文本框,當(dāng)點(diǎn)擊相應(yīng)的按鈕,便可獲取與輸入文本相似度為70 %(默認(rèn)閾值)的所有文本以及這些文本相對應(yīng)的病人信息和給出診斷意見醫(yī)生的名字,或者醫(yī)生也可以手動(dòng)設(shè)置相似度閾值和診斷醫(yī)生的名字,來獲取相應(yīng)條件的所有慢性肝病CT報(bào)告。當(dāng)不進(jìn)行條件篩選時(shí),初診醫(yī)生和審核醫(yī)生的默認(rèn)值是無。主界面如圖4所示。

      圖4 應(yīng)用主界面

      3.3 相似度算法比較

      為了能夠更好獲取統(tǒng)計(jì)信息,把實(shí)驗(yàn)數(shù)據(jù)分成標(biāo)準(zhǔn)文本集和測試文本集兩個(gè)部分。標(biāo)準(zhǔn)集包括350條慢性肝病CT報(bào)告,測試集包括1 050條慢性肝病CT報(bào)告構(gòu)成的匹配集和5 500條CT報(bào)告與超聲波報(bào)告混合構(gòu)成的噪音數(shù)據(jù)集。其中,1 050條匹配數(shù)據(jù)是由人工整理而成,它與350條標(biāo)準(zhǔn)集都分別對應(yīng)有3條具有95 %以上的相似度文本數(shù)據(jù)。

      具體的實(shí)驗(yàn)方法是:依次從標(biāo)準(zhǔn)文本集中取出第j條數(shù)據(jù)(0≤j≤349),計(jì)算它與測試文本集的相似度,獲取出最大相似度top-3的文本,將這3條文本數(shù)據(jù)與匹配集對應(yīng)的3條文本進(jìn)行比較,記下相同的條數(shù)nj作為正確的條數(shù),最后通過如下公式計(jì)算準(zhǔn)確率R值:

      (5)

      本文分別用三種不同的相似度算法對實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分析并比較,在對各個(gè)算法調(diào)定參數(shù)之后,對其分別進(jìn)行了五次實(shí)驗(yàn),而且為了保證算法的區(qū)分能力,每次實(shí)驗(yàn)后都會(huì)隨機(jī)打亂匹配集與噪音集各條文本數(shù)據(jù)之間的順序再進(jìn)行下一次實(shí)驗(yàn)。表4對實(shí)驗(yàn)結(jié)果及準(zhǔn)確率進(jìn)行展示,其中用于對比的三種算法分別是基于IF-IDF的詞頻統(tǒng)計(jì)算法[15-16]、基于潛在狄利克雷分配LDA(Latent Dirichlet Allocation)的主題模型分析算法[17]以及本文的算法。

      表4 實(shí)驗(yàn)結(jié)果對比

      如表5所示,對表4中五次實(shí)驗(yàn)的時(shí)間進(jìn)行記錄,平均每條數(shù)據(jù)花費(fèi)時(shí)長是指每次實(shí)驗(yàn)所取500條數(shù)據(jù)進(jìn)行匹配的平均每條花費(fèi)時(shí)長,平均時(shí)長是指五次實(shí)驗(yàn)平均每條數(shù)據(jù)花費(fèi)的時(shí)長。

      表5 實(shí)驗(yàn)結(jié)果花費(fèi)時(shí)長對比 s

      對實(shí)驗(yàn)結(jié)果進(jìn)行分析,傳統(tǒng)的基于TF-IDF統(tǒng)計(jì)算法在計(jì)算文本相似度時(shí)只是基于詞頻進(jìn)行統(tǒng)計(jì),并不會(huì)對上下文的語義進(jìn)行分析,而慢性肝病的CT報(bào)告文本長度短、專業(yè)詞匯多,且用于描述各條影像所見的詞匯也大多相同,所以其得到的準(zhǔn)確率很低,也很不穩(wěn)定,最后的平均準(zhǔn)確率只有45.9 %,但所花費(fèi)的時(shí)間卻是最少的?;贚DA模型的相似度算法主要是通過識(shí)別語料庫中的所潛在隱藏的主題信息來計(jì)算文本相似度,雖然在詞頻統(tǒng)計(jì)的基礎(chǔ)上新增了對文檔之間的語義分析,但是本文中所分析的慢性肝病CT報(bào)告之間隱藏的主題信息差別不是很大,因此所得結(jié)果的穩(wěn)定性雖相對有所提高,但準(zhǔn)確度不高,最后準(zhǔn)確率為63.6 %。由于此算法也要計(jì)算TF、IDF值,所以在時(shí)間的花費(fèi)也大大提高了。而本文所用算法,在詞向量的分布式處理、語義分析等方面都有很好的處理,每次實(shí)驗(yàn)所得的結(jié)果相對來說都很穩(wěn)定,平均準(zhǔn)確率達(dá)到了90.8 %,因此相對來說時(shí)間代價(jià)也提高了。從時(shí)間維度來講,三種算法都用準(zhǔn)確率換取了花費(fèi)的時(shí)長,但是從準(zhǔn)確率上來看,花費(fèi)的時(shí)間代價(jià)是值得的。

      4 結(jié) 語

      本文利用慢性肝病CT報(bào)告的數(shù)據(jù)特征,研究慢性肝病醫(yī)學(xué)詞庫基礎(chǔ)上,構(gòu)建了包含約6 000個(gè)醫(yī)學(xué)詞匯的慢性肝病CT報(bào)告分詞詞庫。運(yùn)用基于詞庫與最大匹配規(guī)則相結(jié)合的分詞算法進(jìn)行分詞,然后利用Doc2Vec深度學(xué)習(xí)算法以及余弦相似度算法,匹配歷史CT報(bào)告文本中相似度大于設(shè)置閾值的報(bào)告用于參考。本文整理分析了6 900份某三甲醫(yī)院真實(shí)的影像科檢查報(bào)告,通過實(shí)驗(yàn)得出,基于自定義詞庫及改進(jìn)的分詞算法,分詞準(zhǔn)確率達(dá)到了87 %,而通過對比分析,基于Doc2Vec的相似度算法性能明顯優(yōu)于傳統(tǒng)的基于TF-IDF的統(tǒng)計(jì)算法和基于隱含狄利克雷主題模型 (LDA)算法。最后,此實(shí)驗(yàn)在醫(yī)院真實(shí)場景進(jìn)行了應(yīng)用,輔助醫(yī)生給出診斷意見。

      猜你喜歡
      詞庫分詞肝病
      非酒精性脂肪性肝病的中醫(yī)治療
      肝博士(2022年3期)2022-06-30 02:49:06
      你還在把“肝病” 當(dāng)“胃病”在治嗎?
      肝博士(2020年4期)2020-09-24 09:21:30
      結(jié)巴分詞在詞云中的應(yīng)用
      一種基于LBP 特征提取和稀疏表示的肝病識(shí)別算法
      值得重視的分詞的特殊用法
      詞庫音系學(xué)的幾個(gè)理論問題芻議
      肝病很復(fù)雜,久患肝病未必成良醫(yī)
      肝博士(2015年2期)2015-02-27 10:49:42
      環(huán)境變了,詞庫別變
      電腦迷(2014年14期)2014-04-29 00:44:03
      高考分詞作狀語考點(diǎn)歸納與疑難解析
      QQ手機(jī)輸入法如何導(dǎo)入分類詞庫
      電腦迷(2012年15期)2012-04-29 17:09:47
      枞阳县| 津南区| 平江县| 金华市| 临城县| 丰原市| 同心县| 丰顺县| 金秀| 东乌珠穆沁旗| 鹤壁市| 盐津县| 勃利县| 长丰县| 新巴尔虎左旗| 上饶县| 淅川县| 永州市| 安庆市| 临猗县| 金山区| 永济市| 九江市| 吴江市| 额济纳旗| 沁水县| 策勒县| 思茅市| 汪清县| 报价| 屏山县| 菏泽市| 敦化市| 沁源县| 禄丰县| 渑池县| 西林县| 苏尼特左旗| 米林县| 金门县| 吴堡县|