• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于混合采樣的患者投訴中安全事件的自動識別

      2018-03-21 08:11:46,,,,,
      關(guān)鍵詞:分類器混合分類

      ,, ,,,

      患者投訴是在醫(yī)療活動過程中,醫(yī)務(wù)人員及機(jī)構(gòu)未能滿足患者的預(yù)期而導(dǎo)致患者產(chǎn)生的抱怨[1]。醫(yī)院收到的患者投訴過多將會影響醫(yī)院的形象,及時(shí)處理患者投訴一方面可以發(fā)現(xiàn)容易導(dǎo)致醫(yī)患糾紛或醫(yī)院暴力事件的原因,從而對可能發(fā)生的醫(yī)療糾紛事件進(jìn)行早期預(yù)警;另一方面醫(yī)療機(jī)構(gòu)可以根據(jù)患者投訴有針對性地改進(jìn)醫(yī)療服務(wù)質(zhì)量,提高患者滿意度。因此對患者投訴進(jìn)行分析和解讀十分必要[2-3]。

      患者安全是評估醫(yī)療服務(wù)質(zhì)量的重要指標(biāo),旨在將與醫(yī)療保健相關(guān)的不必要傷害風(fēng)險(xiǎn)降低到可接受的最低水平?;颊甙踩录强赡軐?dǎo)致或已經(jīng)導(dǎo)致對患者不必要傷害的事件或情況[4]?;颊咄对V中涉及安全事件的投訴表明患者及其家屬認(rèn)為患者經(jīng)歷了不該遭受的痛苦。患者安全事件容易導(dǎo)致醫(yī)患矛盾進(jìn)一步惡化,甚至引起醫(yī)療糾紛事件或醫(yī)療暴力事件[5-6]。

      醫(yī)療機(jī)構(gòu)每天都會收到大量的患者投訴,涵蓋醫(yī)院各個(gè)方面。人工分析這些投訴文本并將其分類,不僅成本高且效率低。其中大量投訴涉及醫(yī)患溝通、醫(yī)務(wù)人員服務(wù)態(tài)度和醫(yī)院環(huán)境等問題[7]?;颊甙踩耐对V在所有患者投訴中占比較少,不均衡的文本會導(dǎo)致分類器性能下降。因此,如何在患者投訴類別分布不均衡的情況下,提高文本分類的性能是一個(gè)亟待解決的問題。

      本文擬采用混合采樣方法改善患者投訴語料分布不均衡的狀況,對某醫(yī)院的患者投訴進(jìn)行文本分類,以有效識別患者投訴中的安全問題。

      1 患者投訴及不均衡分類的相關(guān)研究

      1.1 患者投訴分類

      研究者利用自然語言處理的方法分析患者投訴。Gillespie[8]根據(jù)患者投訴的主題將患者投訴分成臨床、管理、關(guān)系3個(gè)大類,細(xì)分為質(zhì)量、安全、環(huán)境、管理制度、傾聽、溝通和尊重患者權(quán)利7個(gè)子類,并在此基礎(chǔ)上形成了分類框架體系(Healthcare Complaints Analysis Tool,HCAT);Elmessiry[9]搜集了來自范德比爾特大學(xué)及相關(guān)機(jī)構(gòu)的患者投訴,使用6個(gè)分類器對投訴進(jìn)行分類,用以判斷投訴內(nèi)容是否與醫(yī)生相關(guān),找出需要醫(yī)生改進(jìn)的患者投訴意見;Harrison R[10]通過對患者投訴進(jìn)行主題分析,發(fā)現(xiàn)投訴主要存在臨床、管理和關(guān)系3個(gè)領(lǐng)域(表1)。

      1.2 不均衡數(shù)據(jù)的處理方法

      患者投訴的不均衡分類主要有算法改進(jìn)和數(shù)據(jù)處理兩種解決方案。數(shù)據(jù)處理易實(shí)現(xiàn),是處理不均衡數(shù)據(jù)的主流方法。數(shù)據(jù)處理是對數(shù)據(jù)集進(jìn)行重新采樣,使不均衡比達(dá)到期望比例,以提高分類器的性能,處理方法有欠采樣、過采樣和混合采樣。欠采樣是對多類樣本進(jìn)行有選擇的刪減操作未降低數(shù)據(jù)的不平衡程度,方法有Ramdom Under Sampling,Tomek Links Removal以及Edited Nearest Neighbor等。欠采樣使得訓(xùn)練集規(guī)模變小,訓(xùn)練時(shí)間更短,但舍棄樣本易導(dǎo)致模型無法捕捉數(shù)據(jù)特征造成欠擬合。過采樣是人工合成少數(shù)類樣本平衡數(shù)據(jù)集,過采樣生成新樣本后訓(xùn)練時(shí)間變長,容易造成過擬合。Chawla提出了用SMOTE算法[11]合成樣本,后來的學(xué)者對SMOTE算法容易造成過擬合的缺點(diǎn)進(jìn)行了改進(jìn)。如Han[12]提出了Borderline-SMOTE1和Borderline-SMOTE2算法,對邊界樣本進(jìn)行處理。

      混合采樣是同時(shí)運(yùn)用過采樣和欠采樣方法,解決單獨(dú)使用欠采樣和過采樣的不足,常用方法有SMOTE結(jié)合Tomek Links Removal與SMOTE結(jié)合Edited Nearest Neighbor。

      表1 患者投訴分類體系

      2 實(shí)驗(yàn)數(shù)據(jù)

      2.1 語料來源

      本文選用了來自醫(yī)院隨訪系統(tǒng)及微信應(yīng)用程序搜集到的某醫(yī)院2012-2017年的患者投訴文本,去除內(nèi)容重復(fù)、投訴無明確意義、投訴文本不完整等語料后,得到實(shí)驗(yàn)語料7 009條。

      2.2 納入標(biāo)準(zhǔn)

      根據(jù)患者安全事件的定義及Heather Sherman等的分類標(biāo)準(zhǔn)[4],結(jié)合實(shí)際使用的投訴語料,本文將涉及以下4類主題的患者投訴視為患者安全事件投訴(表2)。

      表2 患者安全事件投訴納入標(biāo)準(zhǔn)

      2.3 語料標(biāo)注

      根據(jù)患者安全事件投訴納入標(biāo)準(zhǔn)進(jìn)行人工標(biāo)注,得到“患者安全”類的投訴文本660條,其他投訴6349條,二者不均衡比為1∶9.62。其中將“患者安全”投訴列為小類,“非患者安全”投訴為大類。

      3 方法流程

      本文的實(shí)驗(yàn)過程如圖1所示。

      3.1 人工標(biāo)注

      標(biāo)注團(tuán)隊(duì)由兩名醫(yī)學(xué)生與1名自然語言處理專家組成。先由醫(yī)學(xué)生對投訴文本內(nèi)容進(jìn)行標(biāo)注,然后由專家對標(biāo)注結(jié)果進(jìn)行審核,對不一致的標(biāo)注結(jié)果則由專家給出最終意見。經(jīng)過反復(fù)核對與修正,使最終標(biāo)注結(jié)果的一致性達(dá)到100%。

      3.2 數(shù)據(jù)預(yù)處理

      采用Python平臺的jieba分詞工具,對文本進(jìn)行了分詞和詞性標(biāo)注。由于文本中包含了一些醫(yī)學(xué)術(shù)語,因此加入自定義詞表以強(qiáng)化分詞效果(自定義詞表包括ICD-10疾病名稱與中文MeSH主題詞),最后將分詞的結(jié)果利用Word2vec映射到向量空間中。

      圖1 實(shí)驗(yàn)研究過程

      3.3 分類實(shí)驗(yàn)

      考慮不同的不均衡比例會影響分類器的分類結(jié)果[13],本文設(shè)置1∶1、1∶2、1∶3、1∶4等4種不均衡比例,利用支持向量機(jī)(Support Vector Machine,SVM)、隨機(jī)森林(Random forest,RF)、梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)和AdaBoost 4種分類器,對利用某一采樣方法平衡后的數(shù)據(jù)集進(jìn)行分類。對分類結(jié)果采用十折交叉驗(yàn)證的方法進(jìn)行評價(jià),即將數(shù)據(jù)集分為10份,輪流將其中9份作為培訓(xùn)集,1份作為測試集進(jìn)行試驗(yàn),取10次試驗(yàn)結(jié)果的平均值作為最終的性能測試結(jié)果。

      通過對比以下幾種方法,找到最佳分類配置:方法1,對原始數(shù)據(jù)集不做任何數(shù)據(jù)的平衡處理;方法2,對數(shù)據(jù)集采用無放回的隨機(jī)欠采樣(Random Under Sampling)的處理,使少數(shù)類與多數(shù)類不均衡比分別達(dá)到1∶1,1∶2,1∶3,1∶4;方法3,使用過采樣方法對數(shù)據(jù)集采用Borderline-SMOTE 2合成少數(shù)類樣本,使少數(shù)類與多數(shù)類不均衡比分別達(dá)到1∶1,1∶2,1∶3,1∶4;方法4,使用混合采樣方法采用SMOTE-ENN[14]算法,使少數(shù)類與多數(shù)類不均衡比分別達(dá)到1∶1,1∶2,1∶3,1∶4。

      3.4 評估指標(biāo)

      本文使用精確度(Precision)、召回率(Recall)、F值(F-measure)對分類器的性能進(jìn)行評價(jià)。精確度代表被正確分類的小類占所有預(yù)測為小類樣本的比例、召回率代表被正確分類的小類樣本占實(shí)際小類樣本的比例,F(xiàn)值則是上面兩個(gè)值的加權(quán)平均和評價(jià)分類器的常用評估指標(biāo)。

      考慮到不均衡問題,不能只從準(zhǔn)確率即所有被正確分類的樣本占總樣本的比例來考察分類器對少數(shù)類的分類能力,因?yàn)楫?dāng)類別極不均衡時(shí),分類器會傾向識別多數(shù)類。此時(shí)準(zhǔn)確率雖然很高,但是少數(shù)類識別的準(zhǔn)確率較低。為此引入G均值(G-mean)、受試者工作特征曲線(Receiver Operating Characteristic Curve,ROC)、曲線下面積(Area Under Curve,AUC)以及PR曲線下面積(Area Under the PR Curve,AUC-PR)[15]綜合考量分類器對于少數(shù)類識別的準(zhǔn)確性。G均值是小類和大類精確度乘積的平方根,ROC曲線下面積值用來綜合考慮大類和小類的分類結(jié)果和評估分類器的整體性能,PR曲線下面積值則更多的關(guān)注小類分類結(jié)果。

      6個(gè)指標(biāo)值的范圍都在0-1之間,分類結(jié)果高于0.8,說明分類模型性能良好,越接近1,說明分類模型性能越好。

      4 結(jié)果

      4.1 無處理的數(shù)據(jù)分類結(jié)果

      無處理的數(shù)據(jù)分類結(jié)果見表3。4個(gè)分類器中,RF的總體表現(xiàn)優(yōu)于其他分類器,召回率均低于50%,4個(gè)分類器的分類性能均不理想。

      表3無處理的數(shù)據(jù)分類結(jié)果/%

      分類器精確度召回率F值G均值A(chǔ)UCAUC-PRRF83.2845.3058.4866.7292.5970.52SVM100.004.097.7919.6465.8551.59AdaBoost61.5929.3839.5852.9375.5742.80GBDT77.7326.4439.0750.0981.3349.82

      4.2 欠采樣結(jié)果分析

      欠采樣數(shù)據(jù)分類結(jié)果見表4。欠采樣方法中的召回率均低于70%,分類性能一般,說明隨機(jī)欠采樣方法不適用于本文數(shù)據(jù)。與其他不均衡比例相比,不均衡比例為1∶1時(shí),分類結(jié)果最優(yōu)。

      表4欠采樣處理后數(shù)據(jù)分類結(jié)果/%

      不均衡比例分類器精確度召回率F值G均值受試者工作特征曲線下面積PR曲線下面積1∶1RF75.2767.3870.7072.2482.5584.85SVM100.005.7610.7723.2467.5279.58AdaBoost70.5067.6368.8569.7276.1478.77GBDT74.3967.1870.3571.5880.7583.051∶2RF91.4841.4256.7763.5681.3975.78SVM100.006.6012.2224.9468.8272.28AdaBoost66.3154.5559.4968.3078.7572.30GBDT82.4047.1059.7966.7582.5876.131∶3RF95.6238.4454.3861.5582.3071.42SVM100.006.2411.6724.5868.3465.87AdaBoost66.6747.6655.1966.0880.2867.62GBDT89.0740.7555.6963.1882.5170.921∶4RF95.8236.4052.6060.1082.3267.66SVM100.006.1711.5224.1868.8263.95AdaBoost68.1043.6453.0764.2278.8061.51GBDT89.9938.0053.3161.1884.0569.02

      4.3 過采樣結(jié)果分析

      過采樣數(shù)據(jù)分類結(jié)果見表5,處理后的數(shù)據(jù)樣本不均衡比例為1∶1時(shí),RF的G均值為97.93%、AUC為99.07%,AUC-PR為99.34%,相較于其他分類器都達(dá)到了較好的水平。同時(shí)與欠采樣數(shù)據(jù)同樣印證了在不均衡比例為1∶1時(shí),分類結(jié)果最好。

      表5過采樣處理后數(shù)據(jù)分類結(jié)果/%

      不均衡比例分類器精確度召回率F值G均值受試者工作特征曲線下面積PR曲線下面積1∶1RF99.5396.3597.9197.9399.0799.34SVM99.9877.1787.1087.8398.7199.21AdaBoost91.5393.4192.4592.3697.4097.85GBDT97.3195.7096.5096.5298.6799.061∶2RF99.2991.8895.4395.6998.0597.76SVM99.9451.3967.8571.6797.2797.57AdaBoost86.7685.1385.9089.1795.3493.57GBDT97.2787.8692.3193.1597.4296.901∶3RF99.0184.3091.0691.6897.0295.60SVM99.8735.7652.5559.7195.7495.49AdaBoost83.0975.6179.1184.6792.7486.90GBDT96.7776.3785.3387.0095.7493.341∶4RF98.0472.1383.0884.7695.5091.81SVM100.0024.8239.6949.7493.4392.37AdaBoost80.7968.7674.2481.1991.5782.37GBDT96.6966.0178.4080.9994.0489.04

      4.4 混合采樣結(jié)果分析

      混合采樣數(shù)據(jù)分類結(jié)果見表6。不均衡比例為1∶1時(shí),RF的精確度和PR曲線下面積相較于其他分類器基本持平,召回率96.27%、F值97.91%、G均值97.97%、受試者工作特征曲線下面積99.82%,相較于其他分類器結(jié)果最好。

      表6混合采樣處理后數(shù)據(jù)分類結(jié)果/%

      不均衡比例分類器精確度召回率F值G均值受試者工作特征曲線下面積PR曲線下面積1∶1RF99.6296.2797.9197.9799.8299.81SVM100.0054.0470.1273.4999.7899.84AdaBoost91.9391.7491.8192.5697.9997.88GBDT97.1493.3395.1895.5199.2099.141∶2RF99.7790.5294.9095.0999.7199.55SVM100.0040.1657.2663.3499.0899.11AdaBoost91.2688.5589.8692.2197.8496.47GBDT97.9787.6192.4993.1999.2198.701∶3RF99.8081.3489.5690.1399.3198.47SVM100.0031.9948.4056.5098.0797.80AdaBoost92.2486.1489.0291.8198.0795.89GBDT98.3883.8190.4791.3499.1097.891∶4RF99.6778.4887.7188.5199.2398.19SVM100.0028.2243.8452.9798.0697.63AdaBoost93.7185.0089.1191.5598.1295.73GBDT99.5480.4988.9889.6699.2497.89

      實(shí)驗(yàn)結(jié)果說明,患者投訴不均衡比越大,分類結(jié)果越差。使用不同的采樣方法與同一種分類器結(jié)合,其性能從高到低依次是混合采樣、過采樣、欠采樣。

      5 討論

      5.1 不同采樣方法的影響

      對于患者投訴數(shù)據(jù)集而言,過采樣方法總體表現(xiàn)優(yōu)于欠采樣方法,可能是因?yàn)榍凡蓸觿h除部分多類樣本后,丟失了部分關(guān)鍵的數(shù)據(jù)特征。過采樣與混合采樣相比性能較差,可能是因?yàn)檫^采樣依據(jù)現(xiàn)有少量樣本合成少類數(shù)據(jù),產(chǎn)生了過擬合問題。而混合采樣同時(shí)對多類數(shù)據(jù)和少類數(shù)據(jù)進(jìn)行處理,使得數(shù)據(jù)趨于均衡,避免了數(shù)據(jù)特征丟失和過擬合問題,從而能夠獲得較好的少數(shù)類分類效果。本文使用文本分類和混合采樣的方法處理患者投訴,相對于未采用不均衡數(shù)據(jù)處理的數(shù)據(jù),分類性能獲得極大提升,召回率由45.30%提升為96.27%,F(xiàn)值由58.48%提升為97.91%,G均值由66.72%提升為97.97%,PR曲線下面積由70.52%提升為99.81%。

      5.2 不同分類器的自動識別性能

      從機(jī)器學(xué)習(xí)方法的角度看,綜合對比3種采樣方法4種比例的12種不同組合,根據(jù)每個(gè)組合中分類器取得最高指標(biāo)的次數(shù)確定最優(yōu)結(jié)果,統(tǒng)計(jì)得出RF分類器、GBDT分類器和AdaBoost分類器分別取得最優(yōu)結(jié)果為9次、2次、1次。其中RF分類器取得最優(yōu)結(jié)果次數(shù)最多,并在3種采樣方法下均有最優(yōu)結(jié)果。

      使用混合采樣方法在比例為1∶1時(shí),性能達(dá)到最優(yōu),顯著優(yōu)于其他分類器,證明RF相較于其他分類器更適合不均衡下患者投訴分類。原因在于,與其他分類器相比,RF分類器更擅長處理高維數(shù)據(jù)、泛化能力更強(qiáng),適合分類由高維、稠密的詞向量映射成的句向量[16]。

      本文利用了混合采樣的算法在數(shù)據(jù)層面進(jìn)行了處理,這樣減少了因單一采樣方法而導(dǎo)致的過擬合問題;使用了領(lǐng)域語料映射詞向量,映射成的向量包含更加豐富的語義信息;采用了適合患者投訴分類的機(jī)器學(xué)習(xí)方法隨機(jī)森林,從而達(dá)到了更好的分類性能。

      6 結(jié)論

      患者投訴中涉及安全投訴的文本少,會出現(xiàn)樣本不均衡問題,導(dǎo)致分類器性能降低,無法有效識別“患者安全”類投訴。本文提出了一種基于混合采樣的數(shù)據(jù)處理方法平衡原始數(shù)據(jù)集,利用多種分類器對“患者安全”類別數(shù)據(jù)進(jìn)行分類的結(jié)果表明,混合采樣方法可以有效提升不均衡數(shù)據(jù)的分類性能,使用混合采樣法不均衡比為1∶1時(shí),RF的分類效果可以滿足實(shí)際應(yīng)用的需要。

      本文所使用的方法具有復(fù)雜程度低、容易實(shí)現(xiàn)、便于醫(yī)療機(jī)構(gòu)使用等優(yōu)點(diǎn),可以有效識別涉及患者安全的投訴文本,提高處理患者投訴的效率。準(zhǔn)確識別患者安全事件相關(guān)的患者投訴,便于醫(yī)療機(jī)構(gòu)管理者及時(shí)干預(yù),先于醫(yī)療糾紛或暴力事件發(fā)生前對不良因素進(jìn)行防范、改正,避免醫(yī)療糾紛的發(fā)生。

      猜你喜歡
      分類器混合分類
      混合宅
      分類算一算
      一起來學(xué)習(xí)“混合運(yùn)算”
      分類討論求坐標(biāo)
      數(shù)據(jù)分析中的分類討論
      BP-GA光照分類器在車道線識別中的應(yīng)用
      電子測試(2018年1期)2018-04-18 11:52:35
      教你一招:數(shù)的分類
      油水混合
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
      安义县| 资源县| 凤山县| 夹江县| 山西省| 南投市| 松江区| 邢台市| 棋牌| 三亚市| 天等县| 福贡县| 建湖县| 塘沽区| 深州市| 汨罗市| 济南市| 固始县| 织金县| 东乡族自治县| 固始县| 彭水| 巴青县| 和硕县| 禹城市| 伊吾县| 灵台县| 星子县| 乐业县| 阿拉善左旗| 奉化市| 常宁市| 涟源市| 莒南县| 阳曲县| 石首市| 鄂托克前旗| 平南县| 宁安市| 习水县| 抚顺县|