• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于關(guān)聯(lián)關(guān)系的電子病歷聚類(lèi)研究

      2018-03-22 01:05:36,
      關(guān)鍵詞:特征詞病歷關(guān)聯(lián)

      電子病歷是基于特定系統(tǒng)的電子化患者記錄,電子病歷系統(tǒng)提供用戶(hù)訪問(wèn)完整準(zhǔn)確的數(shù)據(jù)、警示、提示和臨床決策支持系統(tǒng)的能力[1]。電子病歷數(shù)據(jù)是患者在醫(yī)療機(jī)構(gòu)歷次就診過(guò)程中產(chǎn)生和被記錄的完整的、詳細(xì)的非結(jié)構(gòu)化數(shù)據(jù),具有數(shù)量多、復(fù)雜性、內(nèi)容豐富的特點(diǎn)[2-4]。如何對(duì)電子病歷的非結(jié)構(gòu)化文本信息進(jìn)行標(biāo)注和分析、索引、查詢(xún),進(jìn)而挖掘并獲取有效信息,成為醫(yī)療健康領(lǐng)域中一個(gè)亟待解決的問(wèn)題。

      聚類(lèi)(clustering)是文本挖掘的主要手段之一,是指將數(shù)據(jù)集劃分為若干組(class)或類(lèi)(cluster),并使同一個(gè)組內(nèi)的數(shù)據(jù)對(duì)象具有較高的相似度[5]。電子病歷聚類(lèi)是將工程中非監(jiān)督模式識(shí)別運(yùn)用于電子病歷的數(shù)據(jù)挖掘中,將沒(méi)有標(biāo)記的電子病歷劃分為多個(gè)子集,使同一個(gè)子集中電子病歷的相似度盡可能的大,不同子集中的電子病歷相似度盡可能的小。電子病歷聚類(lèi)對(duì)疾病歸類(lèi)、疾病的發(fā)展過(guò)程、臨床治療措施的選擇以及研究等均具有重要的意義[6]。

      1 電子病歷聚類(lèi)模型

      現(xiàn)有的電子病歷聚類(lèi)主要采用非隱語(yǔ)義模型,其核心思想是通過(guò)隱含特征,聯(lián)系患者的病狀、病程,從而找到電子病歷潛在的主題和分類(lèi)。其方法主要有詞袋模型和向量空間模型。

      1.1 詞袋模型

      詞袋模型是最簡(jiǎn)單的文本處理方法之一,其基本原理是將文檔看作一個(gè)裝滿了詞語(yǔ)的袋子,認(rèn)為每個(gè)詞都是獨(dú)立的不依賴(lài)其他詞。詞袋模型將電子病歷定義為由電子病歷文檔中的詞組成的詞袋,在電子病歷的聚類(lèi)中得到部分應(yīng)用,但由于電子病歷文本的特殊性,詞袋模型在其聚類(lèi)中也出現(xiàn)了很多問(wèn)題[7-8]:特征詞詞頻減少,如不同患者的對(duì)同一個(gè)意思的不同表述,會(huì)造成表述同一意思的詞頻減少,進(jìn)而造成對(duì)電子病歷的聚類(lèi)效果不理想;停用詞影響結(jié)果相關(guān)性,如在電子病歷詞袋中“你、我、他”等停用詞出現(xiàn)頻率較高,不但對(duì)電子病歷聚類(lèi)毫無(wú)意義,還導(dǎo)致產(chǎn)生聚類(lèi)的結(jié)果相關(guān)性低等問(wèn)題;通過(guò)詞頻度量相關(guān)性有缺陷,如在疾病分類(lèi)中用“發(fā)燒”這個(gè)詞在電子病歷描述中出現(xiàn)的頻次衡量其相關(guān)性,會(huì)導(dǎo)致所有的發(fā)熱癥狀都具有相關(guān)性,顯然僅通過(guò)詞頻度量相關(guān)性是不夠準(zhǔn)確的。

      1.2 向量空間模型

      向量空間模型將文本表示成特征項(xiàng)和特征項(xiàng)權(quán)重組成的向量,使用余弦函數(shù)進(jìn)行距離度量[7],以空間上的相似度表達(dá)語(yǔ)義的相似度。

      向量空間模型在電子病歷聚類(lèi)中的應(yīng)用為:將一條電子病歷表達(dá)為一個(gè)向量,每個(gè)詞為向量的一個(gè)維度,用余弦定理對(duì)電子病歷間的相似度進(jìn)行計(jì)算,通過(guò)比較權(quán)重度量電子病歷的相關(guān)性。這種模型主要存在以下問(wèn)題:一是語(yǔ)義相關(guān)缺陷。向量空間模型不能夠表達(dá)文檔中詞條之間豐富的語(yǔ)義關(guān)系[9]。其對(duì)電子病歷的聚類(lèi)默認(rèn)了每個(gè)詞語(yǔ)之間的完全獨(dú)立,忽略了電子病歷中詞語(yǔ)的語(yǔ)義關(guān)系,如“發(fā)燒”和“發(fā)熱”表述是同一意思,然而向量空間模型無(wú)法較好聚類(lèi)語(yǔ)義相近的電子病歷。二是度量衡表達(dá)問(wèn)題。電子病歷中存在大量的詞語(yǔ),用向量空間模型計(jì)算后的電子病歷特征詞是一個(gè)多維稀疏矩陣[10],兩個(gè)相似對(duì)象之間的距離與兩個(gè)不相似對(duì)象之間的距離差別不大,這種聚類(lèi)方式區(qū)分力不強(qiáng),效果不理想。

      2 關(guān)聯(lián)關(guān)系聚類(lèi)實(shí)現(xiàn)

      針對(duì)詞袋模型和傳統(tǒng)的向量空間模型應(yīng)用于電子病歷聚類(lèi)的不足,本文將自然語(yǔ)言處理技術(shù)同面向?qū)傩缘臍w納聯(lián)系起來(lái),提出一種基于關(guān)聯(lián)關(guān)系的電子病歷聚類(lèi)方法,目的是挖掘電子病歷中存在關(guān)聯(lián)關(guān)系特征詞的隱含語(yǔ)義。

      2.1 電子病歷特征詞的抽取

      由于醫(yī)學(xué)的特殊性,特征詞的完整性顯得尤為重要[11]。本文采用詞袋模型加上人工干預(yù)提取每條電子病歷的特征詞。詞袋模型的優(yōu)點(diǎn)在于保證了特征詞的完全提取,缺點(diǎn)是將很多停用詞也提取出來(lái)。人工剔除停用詞,人工干預(yù)語(yǔ)義一致性,既保證了特征詞的完整性又解決了停用詞影響特征詞相關(guān)性以及特征詞與病歷的語(yǔ)義一致性問(wèn)題[12-15]。

      如某電子病歷影像學(xué)診斷結(jié)果為“經(jīng)腹部彩色多普勒超聲檢查(胃腸道)無(wú)異常”,用詞袋模型提取的特征詞為“經(jīng)”“腹部”“彩色”“多普勒”“超聲”“檢查”“胃腸道”“無(wú)”“異?!?,去掉停用詞“經(jīng)”,為保證語(yǔ)義一致性將特征詞“無(wú)”和“異?!焙喜椤盁o(wú)異?!?。

      2.2 電子病歷關(guān)聯(lián)關(guān)系聚類(lèi)實(shí)現(xiàn)

      2.2.1 電子病歷的空間向量定義

      根據(jù)向量空間模型的權(quán)重衡概念,假設(shè)電子病歷集文檔為D,可以計(jì)算其特征詞的權(quán)重,計(jì)算定義為如下:

      (1)

      其中tft,d代表電子病歷中特征詞語(yǔ)t在電子病歷集D中出現(xiàn)的頻次,dft代表包含特征詞t的文檔數(shù)目,N代表全部電子病歷的數(shù)目。

      在空間向量模型中,可由電子病歷的特征詞權(quán)重組成的特征詞向量表示電子病歷。假設(shè)D中包含有dn條電子病歷,每條電子病歷的特征詞經(jīng)過(guò)公式(1)計(jì)算均可得到其權(quán)重,用矩陣表示如下:

      (2)

      其中M為i×j的矩陣,矩陣的每一行表示一條電子病歷,每一個(gè)元素表示某個(gè)詞的權(quán)重。

      2.2.2 特征詞關(guān)聯(lián)關(guān)系定義

      向量空間模型的目的是使特征詞在電子病歷中的權(quán)重衡更加合理,但不足之處是不能表達(dá)特征詞之間隱含的語(yǔ)義關(guān)系。如果能在權(quán)重衡的基礎(chǔ)上輔以關(guān)系量來(lái)表達(dá)特征詞的權(quán)重將更準(zhǔn)確地表達(dá)特征詞的語(yǔ)義。

      假設(shè)特征詞mi,mj同時(shí)出現(xiàn)在電子病歷文檔dk中,記做(mi,mj)∈dk;特征詞mi,mx同時(shí)出現(xiàn)在電子病歷文檔dl中,記做(mi,mx)∈dl;據(jù)數(shù)理定理得mi∈(dk∩dl)。據(jù)此,我們認(rèn)為電子病歷dk和dl有關(guān)系。進(jìn)一步,我們可以用特征詞在不同電子病歷出現(xiàn)的頻次衡量不同電子病歷之間的關(guān)系。根據(jù)廣義Jaccard系數(shù)計(jì)算不同電子病歷相似性,定義如下:

      (3)

      由前述假設(shè),在電子病歷集合D中,如果特征詞mi,mx同時(shí)出現(xiàn)在兩條不同的電子病歷中,則說(shuō)明這兩條電子病歷具有關(guān)聯(lián)關(guān)系,結(jié)合定義(1)與(3),定義電子病歷dk,dl的關(guān)聯(lián)關(guān)系度如下:

      (4)

      其中,Wxk,Wxl分別為特征詞mi,mx在電子病歷dk和dl中的權(quán)重。

      2.2.3 特征詞關(guān)聯(lián)關(guān)系完整性語(yǔ)義度定義

      前述(1)(2)(3)(4)定義了電子病歷特征詞的關(guān)聯(lián)關(guān)系度,但忽略了特征詞之間的完整性。利用主成分分析法對(duì)關(guān)聯(lián)關(guān)系度進(jìn)行加權(quán),因此電子病歷特征詞關(guān)系完整性語(yǔ)義度定義如下:

      Ccontact(dk,dl)=λCcontact(dk,dl)

      (5)

      其中λ為主成分系數(shù),是電子病歷特征詞權(quán)重向量方差除以方差和,λ介于0到1之間。λ值越大,關(guān)聯(lián)關(guān)系度越緊密,從而保證了結(jié)果的一致性。

      2.2.4 電子病歷相似度計(jì)算

      經(jīng)過(guò)關(guān)聯(lián)關(guān)系語(yǔ)義分析之后,電子病歷可以表示成一個(gè)包含隱含語(yǔ)義的一個(gè)向量d。通過(guò)向量空間模型的余弦定理可以計(jì)算電子病歷的相似度定義為:

      (6)

      公式(6)考慮了特征詞的隱含語(yǔ)義和特征詞的完整性,因此對(duì)電子病歷的區(qū)分度更好。

      3 驗(yàn)證

      本驗(yàn)證基于重慶醫(yī)科大學(xué)附屬兒童醫(yī)院2 294條川崎病電子病歷數(shù)據(jù),構(gòu)建3個(gè)數(shù)據(jù)集D1,D2,

      D3,分別代表門(mén)診病歷數(shù)據(jù)集。此數(shù)據(jù)集包括了門(mén)診的病歷,如患者口述、既往病史等;檢查病歷數(shù)據(jù)集,包括了患者各項(xiàng)門(mén)診檢查和住院檢查的相關(guān)記錄;住院病歷數(shù)據(jù)集,包括了患者住院的各項(xiàng)記錄。采用K-平均聚類(lèi)算法與本文改進(jìn)的關(guān)聯(lián)關(guān)系聚類(lèi)從時(shí)間效率與準(zhǔn)確率兩方面進(jìn)行比較。

      3.1 K-平均聚類(lèi)算法聚類(lèi)實(shí)現(xiàn)

      K-平均聚類(lèi)算法的思想是將特征詞集分成N個(gè)簇,并將相似的特征詞放入相應(yīng)的簇中,從而實(shí)現(xiàn)特征詞的聚類(lèi)。K-平均聚類(lèi)算法本文采用歐式距離公式計(jì)算,其算法如下:

      (7)

      依據(jù)K-平均聚類(lèi)算法思想,其實(shí)現(xiàn)步驟如下:將初始質(zhì)心盡可能的均勻分布(表1),依據(jù)公式(7)計(jì)算質(zhì)心點(diǎn)與數(shù)據(jù)點(diǎn)的距離,計(jì)算其簇內(nèi)均值并將其作為新的質(zhì)心點(diǎn),重復(fù)以上3步直至不再有新的質(zhì)心出現(xiàn)。

      3.2 基于關(guān)聯(lián)關(guān)系電子病歷算法聚類(lèi)實(shí)現(xiàn)

      依前討論的結(jié)果,基于關(guān)聯(lián)關(guān)系的聚類(lèi)算法實(shí)現(xiàn)步驟如下:利用詞袋模型分別對(duì)3個(gè)主題集分詞依據(jù)公式(1)(2)計(jì)算特征詞的權(quán)重,并形成特征向量矩陣,依據(jù)公式(3)和(4)計(jì)算電子病歷的關(guān)系度,利用公式(5)對(duì)關(guān)聯(lián)關(guān)系加權(quán)計(jì)算得到特征詞之間的完整語(yǔ)義,利用公式(6)計(jì)算電子病歷相似度。

      3.3 實(shí)驗(yàn)結(jié)果及一致性評(píng)價(jià)

      根據(jù)3.1和3.2,得出3個(gè)主題的聚類(lèi)描述及結(jié)果(表1)。

      表1 不同主題聚類(lèi)結(jié)果對(duì)比

      筆者請(qǐng)重慶醫(yī)科大學(xué)附屬兒童醫(yī)院相關(guān)專(zhuān)家對(duì)3個(gè)數(shù)據(jù)集樣本內(nèi)的特征詞進(jìn)行標(biāo)注,其聚類(lèi)的準(zhǔn)確率是100%。表2是根據(jù)K-平均聚類(lèi)算法和關(guān)聯(lián)關(guān)系聚類(lèi)算法對(duì)同一數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)結(jié)果準(zhǔn)確率對(duì)比的數(shù)據(jù)。

      表2 K-平均聚類(lèi)算法準(zhǔn)確率與關(guān)聯(lián)關(guān)系聚類(lèi)算法

      實(shí)驗(yàn)結(jié)果顯示,采用關(guān)聯(lián)關(guān)系聚類(lèi)模型得到的結(jié)果準(zhǔn)確率比采用簡(jiǎn)單向量空間模型得到的結(jié)果準(zhǔn)確率平均提高了2.16%,說(shuō)明通過(guò)關(guān)聯(lián)關(guān)系挖掘出電子病歷特征詞隱含語(yǔ)義得到的聚類(lèi)效果更準(zhǔn)確。

      從3.1和3.2的算法實(shí)現(xiàn)中我們可以發(fā)現(xiàn),采用K-平均聚類(lèi)需要多次循環(huán),如果初始質(zhì)心選擇不當(dāng),循環(huán)的次數(shù)將會(huì)很大;采用本文的關(guān)聯(lián)關(guān)系聚類(lèi)無(wú)須多次循環(huán)迭代,用時(shí)較少,效率更高。

      4 討論

      基于關(guān)聯(lián)關(guān)系的電子病歷聚類(lèi)算法的原理是利用經(jīng)典的詞袋模型對(duì)電子病歷進(jìn)行分詞,在廣義的向量空間模型基礎(chǔ)上,通過(guò)找出電子病歷間相同特征詞的頻次,并進(jìn)一步分析其潛在的隱含語(yǔ)義。關(guān)聯(lián)關(guān)系聚類(lèi)既利用了向量空間模型的度量衡優(yōu)勢(shì),又考慮了詞語(yǔ)之間隱含的語(yǔ)義關(guān)系,使電子病歷的特征詞更加全面地表達(dá)電子病歷向量,增加同類(lèi)電子病歷之間的相似度,降低不同類(lèi)電子病歷之間相似度,提高了電子病歷的聚類(lèi)效果。引入主成分系數(shù)保證了結(jié)果的一致性。實(shí)驗(yàn)表明,該算法比傳統(tǒng)的聚類(lèi)方法更優(yōu)。本文采用的構(gòu)建模型方法簡(jiǎn)單、實(shí)用、效率高,擺脫了傳統(tǒng)的“一病一法”粗糙聚類(lèi)方法;軟件的實(shí)現(xiàn)相對(duì)簡(jiǎn)單,開(kāi)發(fā)成本低,亦可用于其他病種。關(guān)聯(lián)關(guān)系聚類(lèi)為推動(dòng)電子病歷數(shù)據(jù)挖掘、疾病的分類(lèi)管理、分級(jí)診療、計(jì)算機(jī)輔助決策、精準(zhǔn)醫(yī)療的全面實(shí)施提供有力知識(shí)保證。

      實(shí)驗(yàn)中筆者也發(fā)現(xiàn)一些問(wèn)題,如利用詞袋模型分詞時(shí)工作量較大,空間向量降維計(jì)算較復(fù)雜。因此下一步的工作首先是優(yōu)化詞袋模型,從而減少分詞的工作量;其次采用關(guān)聯(lián)規(guī)則的空間向量進(jìn)行有效特征降維處理,提高文檔表示模型的質(zhì)量,簡(jiǎn)化相關(guān)計(jì)算,提高聚類(lèi)效率。

      猜你喜歡
      特征詞病歷關(guān)聯(lián)
      強(qiáng)迫癥病歷簿
      “大數(shù)的認(rèn)識(shí)”的診斷病歷
      “一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
      基于改進(jìn)TFIDF算法的郵件分類(lèi)技術(shù)
      奇趣搭配
      產(chǎn)品評(píng)論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
      智趣
      讀者(2017年5期)2017-02-15 18:04:18
      為何要公開(kāi)全部病歷?
      村醫(yī)未寫(xiě)病歷,誰(shuí)之過(guò)?
      面向文本分類(lèi)的特征詞選取方法研究與改進(jìn)
      抚顺县| 民丰县| 桂林市| 祁东县| 乐至县| 齐齐哈尔市| 辽宁省| 凤山市| 平遥县| 额敏县| 民乐县| 临桂县| 昔阳县| 富蕴县| 静宁县| 安丘市| 迁西县| 都匀市| 沅江市| 靖宇县| 临武县| 绥德县| 北宁市| 莲花县| 离岛区| 绥江县| 钟祥市| 贡嘎县| 涟水县| 茶陵县| 辉南县| 夏津县| 台东县| 长子县| 陆川县| 炉霍县| 丰台区| 新龙县| 库车县| 定远县| 双流县|