• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于兩階段特征選擇的醫(yī)療敏感文本分類

      2020-08-12 02:35:04陳春玲姜慧敏郭永安
      關(guān)鍵詞:特征選擇術(shù)語分類器

      陳春玲,姜慧敏,郭永安

      (1.南京郵電大學(xué) 計算機(jī)學(xué)院、軟件學(xué)院,江蘇 南京 210023; 2.南京郵電大學(xué) 通信與信息工程學(xué)院,江蘇 南京 210003)

      0 引 言

      隨著醫(yī)療信息化,對醫(yī)療大數(shù)據(jù)的深入分析研究,大量的醫(yī)療數(shù)據(jù)不僅是對醫(yī)療過程的記錄,還被用于深入地進(jìn)行數(shù)據(jù)挖掘和分析,從中總結(jié)出這些數(shù)據(jù)的隱藏價值,促進(jìn)醫(yī)學(xué)技術(shù)的發(fā)展,提高醫(yī)療檢測系統(tǒng)的有效性[1]。但是,醫(yī)療大數(shù)據(jù)使用過程中出現(xiàn)的問題也不容小覷。對于醫(yī)療信息,一方面通過對醫(yī)療信息數(shù)據(jù)的挖掘,對病癥的診斷、治療、藥物開發(fā)、臨床試驗、發(fā)現(xiàn)疾病等提供科學(xué)決策具有重要意義。但在另一方面,在數(shù)據(jù)對外發(fā)布使用之前,如果病人的數(shù)據(jù)被完全泄露,可能會侵犯到病人的隱私,甚至由于數(shù)據(jù)的泄露,個人數(shù)據(jù)信息被隨意交易,給病人帶來更加嚴(yán)重的影響。馮登國等人[2]對于大數(shù)據(jù)的隱私保護(hù)提出了六種方法,其中包括匿名、數(shù)據(jù)溯源、訪問控制等方法類別。但是這些方法實際上都是對數(shù)據(jù)進(jìn)行處理,對數(shù)據(jù)的路徑追蹤以及數(shù)據(jù)權(quán)限的訪問,而缺乏對源數(shù)據(jù)的分類的考慮。國內(nèi)現(xiàn)有的對醫(yī)療領(lǐng)域的隱私保護(hù)技術(shù)[3-4]主要是基于匿名化的醫(yī)療數(shù)據(jù)隱私保護(hù)、基于醫(yī)療數(shù)據(jù)加密的隱私保護(hù)、基于訪問控制的醫(yī)療數(shù)據(jù)隱私保護(hù)以及醫(yī)療數(shù)據(jù)的分級保護(hù)。文中從對醫(yī)療敏感數(shù)據(jù)的分類入手,以提高后續(xù)敏感數(shù)據(jù)的處理效率為目標(biāo)進(jìn)行醫(yī)療數(shù)據(jù)的隱私保護(hù)。

      傳統(tǒng)的醫(yī)療文本分類方法,側(cè)重于進(jìn)行醫(yī)療數(shù)據(jù)的分類管理[5],對如何快速地從醫(yī)療數(shù)據(jù)中分類敏感數(shù)據(jù)與非敏感數(shù)據(jù)的研究較少,考慮選擇合適的方法對醫(yī)療信息進(jìn)行敏感性分類,對于醫(yī)療信息的隱私保護(hù)技術(shù)的提高具有重要意義[6]。在傳統(tǒng)的文本分類方法中,通常只有一個階段的特征選擇,其中使用較為廣泛的是基于TF-IDF的特征選擇方法。TF-IDF方法是一種利用文檔中的術(shù)語頻率賦予權(quán)重進(jìn)行特征排名的特征選擇方法,對于醫(yī)療敏感文本,由于其數(shù)據(jù)結(jié)構(gòu)涵蓋了結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),僅僅考慮術(shù)語頻率對于特征選擇的效率和分類的效果是不夠的??紤]到醫(yī)療敏感文本的特殊性,在特征選擇的過程中,還要考慮特征的降維,以提高分類的準(zhǔn)確率,因此需要對傳統(tǒng)的醫(yī)療文本分類方法進(jìn)行改進(jìn)。文中提出的基于LSI-TF-IDF兩階段特征選擇的醫(yī)療文本分類方法,在特征選擇階段通過連續(xù)的兩個階段的特征選取和特征降維,提高分類的準(zhǔn)確率,從而達(dá)到對醫(yī)療敏感文本分類的高效性。

      1 傳統(tǒng)醫(yī)療文本分類

      傳統(tǒng)的醫(yī)療文本分類主要側(cè)重于自由文本分類。文本分類的過程,一般包括四個步驟:文本預(yù)處理、特征選擇、分類、評估[7]。

      第一步中,在讀取輸入文本文檔之后進(jìn)行文本預(yù)處理。此時,文本文檔被劃分為特征,數(shù)據(jù)表示中的文本文檔則被表示為向量空間,而其組件是該特征及其特征在該文本文檔中每個特征的頻率所占據(jù)的權(quán)重。而后對其進(jìn)行刪除非信息特征操作,包括消除停用詞、處理分詞、文本標(biāo)記、詞干還原等步驟。

      第二步中,特征選擇的主要作用是減小數(shù)據(jù)大小,提高預(yù)測精度,提取重要特征,輕松理解屬性或變量,最終減少執(zhí)行時間。特征選擇的過程可以概括為:對預(yù)處理過的文本進(jìn)行搜索生成特征子集,通過評估產(chǎn)生最好的子集,通過驗證方法驗證產(chǎn)生的子集是否是最佳子集,若是最佳子集,則達(dá)到停止標(biāo)準(zhǔn);若不是最佳子集,則當(dāng)達(dá)到最大迭代次數(shù)時會停止循環(huán)。根據(jù)特征選擇的評估任務(wù),可以將特征選擇方法分為兩類:基于過濾的方法和基于包裝的方法,分類依據(jù)按照是否依賴分類器進(jìn)行劃分。具體的特征選擇方法包括文檔頻率(DF)、Pearson相關(guān)標(biāo)準(zhǔn)、相關(guān)系數(shù)、信息增益(IG)、互信息(MI)、χ2統(tǒng)計、期望交叉熵(CE)、文本證據(jù)權(quán)重(WET)、遺傳算法(GA)等[8-10]。

      在第三步中,分類器的功能是根據(jù)文本文檔的內(nèi)容將其合并為一個或多個預(yù)定義的類別[11]。傳統(tǒng)文本分類方法來源于模式分類,可以分為三類[12]:第一類是基于統(tǒng)計方法,如樸素貝葉斯、支持向量機(jī)(support vector machine,SVM)、K-近鄰(K-nearest neighbor,KNN)、Rocchio等算法;第二類是基于連接的方法,如人工神經(jīng)網(wǎng)絡(luò);第三類是基于規(guī)則的方法,如決策樹、關(guān)聯(lián)規(guī)則、粗糙集等。有很多算法用作分類器,但廣泛使用的算法(分類器)[13-14]是決策樹分類器、SVM分類器、樸素貝葉斯分類器和K-最近鄰分類器。

      第四步中,由于文本數(shù)據(jù)被分為測試集和數(shù)據(jù)集,通過測試集對訓(xùn)練集訓(xùn)練得出的分類器模型進(jìn)行評估。對訓(xùn)練集和測試集的劃分可以通過保持法和K折交叉驗證法實現(xiàn)。目前對于文本的分類處理來說,評價的方法和指標(biāo)包括召回率(recall ratio)、精確率(precision ratio)和F1度量[15]。

      傳統(tǒng)醫(yī)療文本分類是基于TF-IDF特征選擇方式僅考慮用文本中的詞頻進(jìn)行特征選擇,而未考慮到醫(yī)療敏感本文數(shù)據(jù)結(jié)構(gòu)的復(fù)雜性,單一階段的特征選擇之后,分類效果并不夠理想。不同于傳統(tǒng)醫(yī)療文本分類的單一階段特征選擇方式,下一節(jié)提出的基于LSI-TF-IDF兩階段特征方法,通過連續(xù)利用現(xiàn)有特征降維和特征選擇方法對文本進(jìn)行特征選擇,對醫(yī)療文本進(jìn)行敏感性分類。

      2 LSI-TF-IDF兩階段特征選擇的文本分類

      基于LSI-TF-IDF兩階段特征選擇方法包括兩個階段:第一階段采用LSI方法,對原始文檔進(jìn)行特征降維;第二階段采用TF-IDF方法從原始文檔中獲得權(quán)重數(shù)字表示,進(jìn)行特征提取。

      潛在語義索引(latent semantic indexing,LSI)[16]是一種流行的線性代數(shù)索引方法,通過詞同現(xiàn)產(chǎn)生低維表示。LSI的目的是在最小化全局重建誤差的基礎(chǔ)上,找到原始文檔空間的最近似子空間。它基于奇異值分解(singular value decomposition,SVD)并將文檔向量投影到近似子空間中,用余弦相似性準(zhǔn)確地表示語義相似性[17]。給定一個術(shù)語文檔矩陣X=[x1,x2,…,xI]∈Rm,假設(shè)X的等級為R,對X進(jìn)行奇異值分解,如式(1)所示:

      X=U∑VT

      (1)

      其中,∑=diag(δ1,δ2,…,δr),且?1≥?2≥…≥?r是X的奇異值。U=[u1,u2,…,ur],ui是左奇異向量,V=[v1,v2,…,vr],其中vi是右奇異向量。

      詞頻-逆文本術(shù)語頻率(term frequency-inverse document frequency,TF-IDF)是由Sparck Jones[18]提出的IDF演化而來的,TF-IDF認(rèn)為比起在少數(shù)文檔中出現(xiàn)的術(shù)語,在許多文檔中出現(xiàn)的術(shù)語,應(yīng)該賦予更少的權(quán)重[19]。TF-IDF術(shù)語加權(quán)的公式如下:

      (2)

      其中,wi,j表示文檔j中術(shù)語i的權(quán)重,N是集合中文檔的數(shù)量,tfi,j是文檔j中術(shù)語i的術(shù)語頻率,由式(3)定義,dfi是集合中術(shù)語i的文檔頻率,由式(4)定義。

      (3)

      (4)

      其中,|D|表示文件總數(shù),|{j:ti∈di}|表示包含詞語ti的文件數(shù)目(即ni,j≠0的文件數(shù)目)。

      LSI-TF-IDF兩階段特征選擇算法如下所示:

      Algorithm:LSI-TF-IDF算法。

      1.輸入:經(jīng)過文本預(yù)處理后的dataset,存放于文檔列表doc_list中

      2.輸出:返回特征選擇詞典dict_feature_select

      3.根據(jù)式(1)計算文檔向量矩陣X和查詢矩陣Q

      4.對矩陣X進(jìn)行奇異值分解,得到左奇異值U和右奇異值V

      5.計算query-document的余弦相似度

      6.返回相似度最高的語句sims

      7.sims切片存放于詞列表list_words中

      8.進(jìn)行詞頻統(tǒng)計

      9.根據(jù)式(3)計算每個詞的TF值

      10.根據(jù)式(4)計算每個詞的IDF值

      11.根據(jù)式(2)計算每個詞的TF*IDF術(shù)語加權(quán)

      12.對字典值由大到小排序

      在兩階段的特征選擇中,首先采用LSI方法形成文檔矩陣,采用余弦相似性評估文檔矩陣,進(jìn)行數(shù)據(jù)降維。而后利用TF-IDF方法,對降維后的文檔數(shù)據(jù)中術(shù)語頻率進(jìn)行排序,從而完成特征提取。完成特征選擇之后,緊接著就是對特征樣本進(jìn)行分類,最后在分類出的敏感樣本和普通樣本結(jié)果上,對其進(jìn)行評估。因此,LSI-TF-IDF兩階段特征選擇算法用于醫(yī)療敏感文本分類的流程包括以下五個步驟:文本預(yù)處理、LSI特征降維、TF-IDF特征選擇、分類、評估。

      3 仿真與實驗

      3.1 數(shù)據(jù)集和實驗方法

      實驗數(shù)據(jù)集使用736份糖尿病文本病歷樣本,對其進(jìn)行處理,將它分為敏感樣本和普通樣本。在Pycharm平臺上使用,并使用python語言進(jìn)行設(shè)計,中文分詞工具是Jieba。在分類器訓(xùn)練部分,分別選擇了樸素貝葉斯、KNN和SVM作為文中的分類算法。在特征選擇階段,對基于TF-IDF方法和基于LSI-TF-IDF兩階段特征選擇方法進(jìn)行比較。對于分類結(jié)果評估,采用10倍交叉驗證法對數(shù)據(jù)集進(jìn)行評估。

      3.2 評價標(biāo)準(zhǔn)

      對于分類結(jié)果的評價標(biāo)準(zhǔn)可以通過精確率、召回率和F1值進(jìn)行評估。

      召回率也稱為查全率。在文本分類中,正確識別出屬于C類的文本數(shù)與測試集中實際存在的屬于C類的文本總數(shù)的比值為分類召回率,公式如下:

      (5)

      其中,TP表示由分類器正確計算將屬于C類的文本判定屬于C類;FN表示由分類器錯誤地將屬于C類的文本判定為屬于其他類。

      精確率也稱為查準(zhǔn)率。正確識別出的屬于C類的文本數(shù)與識別出的屬于C類的文本數(shù)二的比值,為分類精確率,公式如下:

      (6)

      其中,TP表示由分類器正確計算將屬于C類的文本判定屬于C類;FP表示由分類器錯誤地將應(yīng)屬于其他類的文本判定為屬于C類。

      F1度量是基于精確率和召回率的調(diào)和平均,定義如下:

      (7)

      其中,P為精確率,R為召回率。

      3.3 實驗結(jié)果

      實驗通過對糖尿病文本數(shù)據(jù)進(jìn)行敏感樣本分類,基于TF-IDF的傳統(tǒng)文本分類方法的實驗結(jié)果以及評價標(biāo)準(zhǔn)比較分別如表1和圖1所示,基于LSI-TF-IDF的兩階段文本分類方法的實驗結(jié)果以及評價標(biāo)準(zhǔn)比較分別如表2和圖2所示。

      表1 基于TF-IDF的分類結(jié)果

      表2 基于LSI-TF-IDF的分類結(jié)果

      圖1 基于TF-IDF的醫(yī)療敏感文本分類

      圖2 基于LSI-TF-IDF的醫(yī)療敏感文本分類

      3.4 實驗分析

      由表1和表2對比顯示,在經(jīng)過連續(xù)兩階段的特征降維和特征選擇后,正確分類出的敏感樣本數(shù)目有所增加,對于樸素貝葉斯分類器,正確分類的敏感樣本數(shù)由313份增加到331份;對于KNN分類器,正確分類的敏感樣本數(shù)由296份增加到324份;對于SVM分類器,正確分類的敏感樣本數(shù)由327份增加到345份。

      由圖1和圖2對比顯示,對于樸素貝葉斯分類,基于LSI-TF-IDF兩階段特征選擇算法的分類精確率相比于單一的基于TF-IDF特征選擇的分類精確率由89.2%上升到90.2%,召回率也由84.6%上升到89.5%;對于KNN分類,基于LSI-TF-IDF兩階段特征選擇算法的分類精確率相比于單一的基于TF-IDF特征選擇的分類精確率由82.7%上升到87.1%,召回率也由80%上升到87.6%;對于SVM分類,基于LSI-TF-IDF兩階段特征選擇算法的分類精確率相比于單一的基于TF-IDF特征選擇的分類精確率由91.9%上升至92.7%,召回率由88.4%上升至93.2%??梢钥闯鰺o論是精確率、召回率還是F1值,基于兩階段特征選擇的醫(yī)療敏感文本分類都比傳統(tǒng)醫(yī)療敏感文本分類有所提高。

      因此,根據(jù)對實驗結(jié)果的對比分析,對于醫(yī)療文本的敏感性分類而言,基于LSI-TF-IDF兩階段特征選擇的文本分類方法比傳統(tǒng)的基于TF-IDF文本分類方法取得了更好的分類效果。

      4 結(jié)束語

      從對敏感數(shù)據(jù)的分類角度切入隱私保護(hù),針對傳統(tǒng)的文本分類方法用于醫(yī)療敏感數(shù)據(jù)的分類準(zhǔn)確性不足的問題,提出了基于LSI-TF-IDF兩階段特征選擇的醫(yī)療敏感文本分類方法,通過連續(xù)兩階段的特征降維和特征提取,提高分類的準(zhǔn)確性,解決了傳統(tǒng)分類方法的不足。以TF-IDF特征選擇為例,通過實驗對傳統(tǒng)的基于TF-IDF醫(yī)療文本分類方法和基于兩階段文本分類的醫(yī)療敏感文本分類方法進(jìn)行比較。實驗證明,基于LSI-TF-IDF兩階段特征選擇的文本分類方法對于醫(yī)療敏感文本分類具有更好的效果。但是,由于醫(yī)療數(shù)據(jù)量大,文本數(shù)據(jù)包括半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),分類器的選擇不同會導(dǎo)致分類速度和分類結(jié)果的準(zhǔn)確性有差別,如何針對醫(yī)療數(shù)據(jù)的特點選擇性能最好的分類器,需要具體的進(jìn)一步研究。

      猜你喜歡
      特征選擇術(shù)語分類器
      BP-GA光照分類器在車道線識別中的應(yīng)用
      電子測試(2018年1期)2018-04-18 11:52:35
      Kmeans 應(yīng)用與特征選擇
      電子制作(2017年23期)2017-02-02 07:17:06
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
      聯(lián)合互信息水下目標(biāo)特征選擇算法
      基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
      基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
      基于二元搭配詞的微博情感特征選擇
      有感于幾個術(shù)語的定名與應(yīng)用
      從術(shù)語學(xué)基本模型的演變看術(shù)語學(xué)的發(fā)展趨勢
      莱西市| 永顺县| 延吉市| SHOW| 广汉市| 隆子县| 汉阴县| 观塘区| 靖宇县| 青海省| 丰城市| 台东市| 仲巴县| 文安县| 鄯善县| 青阳县| 日喀则市| 龙川县| 河源市| 屏山县| 昂仁县| 微博| 临洮县| 凤城市| 永靖县| 宁陕县| 广西| 浦东新区| 米泉市| 宜城市| 乐清市| 洛隆县| 丰原市| 镶黄旗| 赤壁市| 翁牛特旗| 肥城市| 嵩明县| 南木林县| 大田县| 巧家县|