• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于TLSTM的醫(yī)療保險(xiǎn)欺詐檢測

      2020-11-10 07:10:52曹魯慧秦豐林閆中敏
      關(guān)鍵詞:欺詐間隔醫(yī)療保險(xiǎn)

      曹魯慧,秦豐林,閆中敏

      1.山東大學(xué) 信息化工作辦公室,濟(jì)南 250100

      2.山東大學(xué) 軟件學(xué)院,濟(jì)南 250100

      1 背景

      醫(yī)療保險(xiǎn)欺詐每年對許多國家造成的經(jīng)濟(jì)損失高達(dá)數(shù)千億美元,嚴(yán)重威脅醫(yī)?;鸬暮戏ㄊ褂?,妨礙政府醫(yī)保政策的有效實(shí)施。隨著信息化的發(fā)展,越來越多的用戶屬性信息和行為信息被積累下來,醫(yī)療保險(xiǎn)欺詐識(shí)別成為學(xué)者們的研究熱點(diǎn)。醫(yī)保欺詐識(shí)別旨在醫(yī)療保險(xiǎn)大數(shù)據(jù)中抽繭剝絲,從絕大部分正常合理的醫(yī)療數(shù)據(jù)中區(qū)分出極少量的欺詐記錄,由于數(shù)據(jù)量大、數(shù)據(jù)分布不均、違規(guī)行為相對隱蔽,使得醫(yī)療保險(xiǎn)大數(shù)據(jù)中的欺詐檢測成為一項(xiàng)具有挑戰(zhàn)性的工作。

      目前國內(nèi)醫(yī)保領(lǐng)域的醫(yī)療服務(wù)反欺詐應(yīng)用系統(tǒng)主要通過專家定義的欺詐檢測規(guī)則來圈定疑似欺詐行為,規(guī)則中閾值、權(quán)重的選擇非常困難,而且現(xiàn)實(shí)中大部分欺詐行為比較隱蔽,按照規(guī)則一刀切計(jì)算代價(jià)非常大但準(zhǔn)確率卻極低。

      已有的欺詐識(shí)別算法大多將其看作二分類問題,將記錄分成合法/欺詐兩個(gè)類別。但在醫(yī)療保險(xiǎn)背景下,由于供需雙方存在嚴(yán)重的信息不對稱現(xiàn)象,欺詐者會(huì)努力模仿合法用戶的行為,而且欺詐者的比例很小,傳統(tǒng)的基于分類的欺詐識(shí)別算法不再適用。

      近年來,隨著深度學(xué)習(xí)的發(fā)展,學(xué)者們廣泛使用遞歸神經(jīng)網(wǎng)絡(luò)(RNN)利用患者就醫(yī)行為序列構(gòu)建預(yù)測模型,預(yù)測患者接下來的就醫(yī)行為。但是,RNN無法有效解決長期依賴關(guān)系。當(dāng)患者的就醫(yī)行為序列過長時(shí),RNN模型的預(yù)測性能會(huì)隨之下降。

      不同就醫(yī)之間具有依賴關(guān)系。將時(shí)序信息結(jié)合到算法中能夠提高欺詐識(shí)別的準(zhǔn)確率。區(qū)別于傳統(tǒng)的事件序列數(shù)據(jù)(如股票價(jià)格等),病人的住院數(shù)據(jù)時(shí)間間隔是不均勻分布的。兩次住院記錄間的時(shí)間間隔可能是幾天、幾月甚至幾年。時(shí)間間隔的長短對后續(xù)事件的影響程度是不同的,間隔時(shí)間越長,對后續(xù)的影響程度越小。圖1 顯示了一個(gè)病人在某個(gè)時(shí)間段內(nèi)的就醫(yī)行為序列,可以看出從時(shí)間分布上看,就醫(yī)行為由于偶發(fā)性等原因分布并不均勻。此外,疾病和藥品/診療項(xiàng)目種類繁多,醫(yī)療保險(xiǎn)數(shù)據(jù)是異構(gòu)的。若能夠根據(jù)患者的就醫(yī)行為序列歷史預(yù)測其下一次就醫(yī)行為,能夠有效幫助進(jìn)行醫(yī)療保險(xiǎn)欺詐的預(yù)防工作。

      圖1 患者就醫(yī)序列

      針對上述問題和挑戰(zhàn),本文旨在解決以下關(guān)鍵問題:如何考慮時(shí)間間隔對醫(yī)療行為的影響以提高預(yù)測的準(zhǔn)確程度;如何通過預(yù)測結(jié)果與現(xiàn)實(shí)就醫(yī)行為的對比來篩選出可疑的欺詐記錄。為了解決這些問題,提出了一個(gè)基于TLSTM的醫(yī)療保險(xiǎn)欺詐識(shí)別模型。該模型使用過去五年中患者的醫(yī)療保險(xiǎn)數(shù)據(jù)作為樣本。改進(jìn)LSTM 提出TLSTM 算法,引入注意機(jī)制和時(shí)間調(diào)整因子來共同加權(quán)不同時(shí)刻的隱藏狀態(tài),顯著提高了預(yù)測性能并獲得較高的欺詐識(shí)別準(zhǔn)確率。

      總之,本文的主要貢獻(xiàn)如下:

      (1)在LSTM 的基礎(chǔ)上,引入注意機(jī)制和時(shí)間調(diào)整因子來共同加權(quán)不同時(shí)刻的隱藏狀態(tài),顯著提高了預(yù)測性能。

      (2)將患者的就醫(yī)行為與預(yù)測的就醫(yī)行為結(jié)果進(jìn)行對比,通過其相似程度確定患者存在欺詐的概率,無需花費(fèi)很大精力獲得大量有標(biāo)簽數(shù)據(jù)作為訓(xùn)練集。

      2 相關(guān)研究

      基于深度學(xué)習(xí)的醫(yī)療欺詐檢測能夠根據(jù)歷史記錄識(shí)別出各種復(fù)雜類型的醫(yī)療保險(xiǎn)欺詐。

      Choi[1]提出基于graph的注意力模型GRAM補(bǔ)充電子健康記錄醫(yī)學(xué)本體所固有的分層信息,代表一個(gè)醫(yī)學(xué)概念作為本體通過注意力機(jī)制的組合模型。Kermany[2]建立了一個(gè)基于深度學(xué)習(xí)框架的篩查普通可治療致盲性視網(wǎng)膜疾病的診斷工具。該框架利用轉(zhuǎn)移學(xué)習(xí),使用傳統(tǒng)方法的一小部分?jǐn)?shù)據(jù)來訓(xùn)練神經(jīng)網(wǎng)絡(luò)。將這種方法應(yīng)用于光學(xué)相干斷層掃描圖像數(shù)據(jù)集,證明其性能與人類專家在分類年齡相關(guān)性黃斑變性和糖尿病性黃斑水腫方面的性能相當(dāng)。Litjens[3]將“深度學(xué)習(xí)”作為一種提高組織病理學(xué)幻燈片分析的客觀性和效率的技術(shù)。Golden[4]比較了幾種機(jī)器學(xué)習(xí)方法來檢測醫(yī)療保險(xiǎn)欺詐。采用監(jiān)督式、無監(jiān)督式和混合式機(jī)器學(xué)習(xí)方法進(jìn)行比較研究,使用四種性能指標(biāo)和通過過采樣和80-20 欠采樣方法減少類失衡。

      Baytas[5]提出了一種患者亞型模型,該模型利用TLSTM來學(xué)習(xí)患者順序記錄的強(qiáng)大單一表示,然后用它將患者分組為臨床亞型。Pham[6]介紹Deepcare,一種端到端深度動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò),可讀取醫(yī)療記錄,存儲(chǔ)以前的病史,推斷當(dāng)前的疾病狀態(tài)并預(yù)測未來的醫(yī)療結(jié)果。Ma[7]提出了Dipole,是一種端到端,簡單且健壯的預(yù)測患者未來健康信息的模型,用雙向遞歸神經(jīng)網(wǎng)絡(luò)來記憶過去入院記錄和未來入院記錄的所有信息,并引入三種注意機(jī)制來測量不同入院記錄對于預(yù)測的關(guān)系。Liu[8]提出了一個(gè)深度加強(qiáng)學(xué)習(xí)框架,以通過觀察醫(yī)學(xué)數(shù)據(jù)估計(jì)最佳動(dòng)態(tài)治療方案。該框架比現(xiàn)有的強(qiáng)化學(xué)習(xí)方法更靈活,更適應(yīng)高維空間,以模擬現(xiàn)實(shí)生活中異質(zhì)疾病進(jìn)展和治療選擇的復(fù)雜性,其目標(biāo)是為醫(yī)生和患者提供數(shù)據(jù)驅(qū)動(dòng)的個(gè)性化決策建議。Lasaga[9]展示如何有效地利用RBMs 來找出不嚴(yán)格遵循給定診斷對應(yīng)治療方案的異常處方。Guo[10]對連續(xù)行為產(chǎn)生的屬性行為序列進(jìn)行建模,以捕獲序列模式,將那些偏離序列的行為視為欺詐行為。Zheng[11]提出了一種基于生存分析的欺詐早期檢測模型SAFE,該模型將動(dòng)態(tài)用戶活動(dòng)映射到生存概率,并保證生存概率隨時(shí)間單調(diào)遞減。Yan[12]提出了一種新的混合離群點(diǎn)檢測方法,即基于剪枝的k近鄰(PB-KNN),它將基于密度、基于簇的方法與KNN 算法相結(jié)合,進(jìn)行有效的離群點(diǎn)檢測。

      上述相關(guān)研究都獲得了令人滿意的欺詐識(shí)別效果,然而,它們大都針對于特定疾病類型進(jìn)行欺詐識(shí)別,此外,沒有考慮就醫(yī)行為序列中的長時(shí)依賴問題。因此本文考慮不同時(shí)間間隔對于就醫(yī)行為預(yù)測的影響,并提出針對于全部疾病類型而非單一疾病類型的欺詐識(shí)別算法。

      3 基于LSTM的醫(yī)療保險(xiǎn)欺詐檢測

      本章中,首先介紹了醫(yī)療保險(xiǎn)數(shù)據(jù)的結(jié)構(gòu)一些基本的符號(hào)。然后描述了基于LSTM 的醫(yī)療保險(xiǎn)欺詐識(shí)別算法細(xì)節(jié)。

      3.1 符號(hào)表示

      醫(yī)療保險(xiǎn)數(shù)據(jù)包含三部分信息:(1)患者的基本信息;(2)患者的就醫(yī)記錄信息;(3)欺詐標(biāo)識(shí)狀態(tài)。

      患者的基本信息指患者的年齡、性別、住址等屬性信息。形式化表示為pi=(agei,sexi,addressi,…)。

      患者的就醫(yī)記錄信息可以表示為就醫(yī)序列,由按時(shí)間遞增順序產(chǎn)生的一系列就診行為組成。每次就診行為由疾病診斷和采用的藥品/診療項(xiàng)目組成?;颊遬i的就醫(yī)記錄信息形式化表示為pv=(v1,v2,…,vt),每次就診行為可表示為vj=(hj,dj,cj1,cj2,…,cjn),hj表示該次就診的醫(yī)院,dj代表患者該次就診的疾病診斷,cj1,cj2,…,cjn指的是該次就診中所使用的藥品/診療項(xiàng)目代碼。每個(gè)診斷代碼都可以映射到國際疾病分類(ICD-9)的節(jié)點(diǎn),以及每個(gè)藥品/診療項(xiàng)目代碼可以映射到當(dāng)前過程術(shù)語中的節(jié)點(diǎn)(CPT)。

      輸入為患者在時(shí)間段T內(nèi)的就醫(yī)記錄,旨在通過預(yù)測t+1 時(shí)刻的用戶就醫(yī)行為,然后與其實(shí)際行為進(jìn)行對比,相似度越小,存在欺詐的可能性越大。

      3.2 LSTM介紹

      遞歸神經(jīng)網(wǎng)絡(luò)(RNN)是一種深層網(wǎng)絡(luò)結(jié)構(gòu),其中隱藏單元之間的連接形成一個(gè)定向循環(huán)。這個(gè)反饋循環(huán)使網(wǎng)絡(luò)能夠?qū)㈦[藏狀態(tài)的前一個(gè)信息作為內(nèi)部存儲(chǔ)器。因此,對于系統(tǒng)需要存儲(chǔ)和更新上下文信息的問題,RNN 是首選的?;陔[馬爾科夫的模型也具有類似的功能,但區(qū)別于傳統(tǒng)的隱馬爾科夫模型,RNN不做馬爾可夫特性的假設(shè),可以處理可變長度序列。此外,原則上,過去輸入的信息在內(nèi)存中不受時(shí)間限制。然而,長期依賴性的優(yōu)化在實(shí)際中是不可能實(shí)現(xiàn)的,因?yàn)樵谶@種情況下,梯度值將分別變得過大或者過小。為了能夠在不違反優(yōu)化過程的情況下合并長期依賴關(guān)系,會(huì)產(chǎn)生差異。其中一個(gè)流行的變種是長短期記憶網(wǎng)絡(luò)(LSTM),它能夠處理具有集成結(jié)構(gòu)的長時(shí)間依賴關(guān)系。一個(gè)標(biāo)準(zhǔn)的模塊對忘記、輸入、輸出門和存儲(chǔ)器單元進(jìn)行了計(jì)算,但是結(jié)構(gòu)要求在元素之間的間隔時(shí)間內(nèi)均勻地分布。因此,在縱向醫(yī)療數(shù)據(jù)中存在的時(shí)間不均勻性不適用于該邏輯結(jié)構(gòu)。例如,患者的就醫(yī)行為日期的分布是高度不均勻的,這樣記錄之間的時(shí)間間隔可以從一天到幾年不等。由于連續(xù)兩次醫(yī)院就診之間的時(shí)間間隔是醫(yī)療領(lǐng)域決策的重要來源之一,LSTM體系結(jié)構(gòu)會(huì)將正常的時(shí)間間隔納入到時(shí)間數(shù)據(jù)所需的審計(jì)數(shù)據(jù)中。為此,提出了TLSTM算法,能夠處理就醫(yī)行為間隔分布的不均勻性。

      3.3 基于TLSTM的就醫(yī)行為預(yù)測

      首先,算法利用改進(jìn)的LSTM算法預(yù)測患者在t+1時(shí)刻的行為預(yù)測。

      圖2顯示了算法的主要步驟。給定患者從1到t時(shí)刻的就醫(yī)行為記錄,i時(shí)刻的就診行為可以映射為一個(gè)向量veci。將其作為TLSTM 的輸入,獲得隱藏狀態(tài)Hi。通過attention機(jī)制,可以計(jì)算當(dāng)前i狀態(tài)的相對重要權(quán)重。最終,算法輸出t+1時(shí)刻的就醫(yī)行為預(yù)測結(jié)果。

      圖2 算法結(jié)構(gòu)

      Embedding Layer嵌入層用于將輸入的患者從1到t時(shí)刻的就醫(yī)記錄映射為向量vec。若使用該藥品/診療項(xiàng)目,則向量中對應(yīng)值為1,否則置為0。對于輸入x=pv=(v1,v2,…,vt),其映射向量vec可以表示為:

      A表示藥品/診療項(xiàng)目的權(quán)重矩陣。

      RNN 為建模患者就醫(yī)時(shí)序數(shù)據(jù)提供了可能,但RNN 的預(yù)測性能會(huì)隨著時(shí)序序列的長度增加而下降。LSTM可以克服該缺點(diǎn),但它沒有考慮不同時(shí)間間隔對預(yù)測結(jié)果的不同權(quán)重。為了解決以上挑戰(zhàn),提出引入時(shí)間間隔的TLSTM,它考慮時(shí)間序列間不同時(shí)間間隔對預(yù)測的不同影響程度。圖3為TLSTM的示意圖。

      注意力機(jī)制模擬人腦注意力的特征。該核心思想是更多地關(guān)注重要內(nèi)容,而不是關(guān)注其他內(nèi)容。在住院行為預(yù)測的過程中,傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型忽略了訪問時(shí)間間隔長度的影響關(guān)于建模的序列,因?yàn)槊看卧L問對當(dāng)前時(shí)刻的貢獻(xiàn)不一定是一樣的。因此,考慮到并非所有特征都有助于預(yù)測,將注意力分?jǐn)?shù)和時(shí)間調(diào)整因子添加到LSTM框架,在患者就醫(yī)序列的建模過程中用于確定隱藏狀態(tài)的強(qiáng)度。

      圖3 引入時(shí)間間隔

      TLSTM能夠根據(jù)疾病類型和時(shí)間間隔控制前面信息的通過程度。算法實(shí)現(xiàn)過程如下:

      首先,通過忘記門的Sigmoid 層決定要從細(xì)胞狀態(tài)中丟棄什么信息。它查看ht-1(前一個(gè)輸出)和xt(當(dāng)前輸入),并為單元格狀態(tài)Ct-1(上一個(gè)狀態(tài))中的每個(gè)數(shù)字輸出0和1之間的數(shù)字。1代表完全保留,而0代表徹底刪除。Δt表示行為間的時(shí)間間隔,不同的時(shí)間間隔對信息的保留程度產(chǎn)生影響。時(shí)間間隔越久,信息保留程度越小。

      然后決定要在細(xì)胞狀態(tài)中存儲(chǔ)什么信息。這部分分為兩步。首先,稱為“輸入門層”的Sigmoid層決定了將更新哪些值。接下來一個(gè)tanh 層創(chuàng)建候選向量Ct,該向量將會(huì)被加到細(xì)胞的狀態(tài)中。在下一步中,結(jié)合這兩個(gè)向量來創(chuàng)建更新值。

      更新上一個(gè)狀態(tài)值Ct-1,將其更新為Ct。將上一個(gè)狀態(tài)值乘以ft,以此表達(dá)期待忘記的部分。

      輸出將基于細(xì)胞狀態(tài),但將是一個(gè)過濾版本。首先,運(yùn)行一個(gè)Sigmoid層,它決定了要輸出的細(xì)胞狀態(tài)的哪些部分。然后,將單元格狀態(tài)通過tanh(將值規(guī)范化到-1 和1 之間),并將其乘以Sigmoid 門的輸出,至此輸出了決定的那些部分。

      獲得輸出的預(yù)測就醫(yī)行為之后,計(jì)算該患者在t+1時(shí)刻的實(shí)際就醫(yī)行為與預(yù)測的就醫(yī)行為之間的相似度。若相似度較高,說明該次就醫(yī)行為存在欺詐的可能性較低,反之,存在欺詐的可能性較高。

      4 實(shí)驗(yàn)評(píng)估

      在真實(shí)數(shù)據(jù)集上評(píng)估提出的模型。為了保護(hù)隱私和安全,對相應(yīng)的患者和醫(yī)院的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行匿名化,如使用Hospital-A、Hospital-B來代表醫(yī)院的名稱。

      中國山東省某地區(qū)的健康保險(xiǎn)數(shù)據(jù)用于實(shí)驗(yàn),主要選擇了患者2014 年至2018 年總費(fèi)用最高的四大疾病。四種疾病包括腫瘤、冠心病疾病、糖尿病和肺炎。這些就醫(yī)數(shù)據(jù)包括診斷,醫(yī)院和藥品/診療項(xiàng)目。為方便起見,使用TD來表示腫瘤數(shù)據(jù)集,CHDD代表冠心病數(shù)據(jù)集,DD 代表糖尿病數(shù)據(jù)集,PD 代表發(fā)送肺炎數(shù)據(jù)集。表1描述了有關(guān)數(shù)據(jù)集的統(tǒng)計(jì)信息。

      與已有醫(yī)療保險(xiǎn)欺詐識(shí)別方法進(jìn)行比較,以便評(píng)估TLSTM模型的性能,方法描述如下。

      樸素貝葉斯(NB)[13]:將欺詐識(shí)別看作二分類問題。

      梯度提升樹(GBDT)[14]:基于迭代所構(gòu)造的決策樹算法。

      RNN[15]:這是傳統(tǒng)的單向遞歸神經(jīng)網(wǎng)絡(luò),在不使用任何注意機(jī)制的情況下輸出未來的就醫(yī)行為。

      TLSTM:本文提出的模型,考慮時(shí)間間隔對醫(yī)療的影響。

      表2展示了利用TLSTM預(yù)測就醫(yī)行為所在醫(yī)院的結(jié)果實(shí)例。

      表2 醫(yī)院預(yù)測

      將患者的就醫(yī)行為與預(yù)測的就醫(yī)行為結(jié)果進(jìn)行對比,通過其相似程度確定患者存在欺詐的概率。若相似度較高,說明該次就醫(yī)行為存在欺詐的可能性較低,反之,存在欺詐的可能性較高。采用準(zhǔn)確率、召回率和F-meausre作為評(píng)價(jià)標(biāo)準(zhǔn)來評(píng)估算法的性能。對于所有帶參數(shù)的方法,通過進(jìn)一步將訓(xùn)練集劃分為80%用于模型擬合和20%用于參數(shù)驗(yàn)證來優(yōu)化參數(shù)10 次交叉驗(yàn)證。圖4 顯示TLSTM 算法與對比算法的性能比較結(jié)果。從圖中可以看出,本文的算法較已有算法顯著提高了欺詐識(shí)別的準(zhǔn)確程度。

      圖4 性能對比

      5 結(jié)論

      近年來,隨著中國人口數(shù)量的迅速擴(kuò)大,醫(yī)療保險(xiǎn)的參?;颊呷藬?shù)也不斷增加。如何通過患者的就醫(yī)行為分析發(fā)現(xiàn)疑似欺詐記錄已成為醫(yī)療保險(xiǎn)的重要研究熱點(diǎn)。當(dāng)患者就診序列的長度很大時(shí),RNN 的預(yù)測能力會(huì)顯著下降。此外,該方法忽略了訪問序列中時(shí)間間隔對其的影響?;赥LSTM的醫(yī)療保險(xiǎn)識(shí)別模型解決了這些問題。將用戶的歷史就醫(yī)行為序列作為TLSTM模型的輸入,預(yù)測患者再入院原因及診療方案,通過比較模型輸出與用戶當(dāng)前就醫(yī)行為的差異程度,來判斷用戶存在欺詐的可能性。實(shí)驗(yàn)表明,該算法在欺詐識(shí)別準(zhǔn)確度上明顯優(yōu)于已有算法。

      猜你喜歡
      欺詐間隔醫(yī)療保險(xiǎn)
      關(guān)于假冒網(wǎng)站及欺詐行為的識(shí)別
      關(guān)于假冒網(wǎng)站及欺詐行為的識(shí)別
      間隔問題
      警惕國際貿(mào)易欺詐
      中國外匯(2019年10期)2019-08-27 01:58:04
      間隔之謎
      “三醫(yī)聯(lián)動(dòng)”下醫(yī)療保險(xiǎn)新走向
      網(wǎng)購遭欺詐 維權(quán)有種法
      社會(huì)醫(yī)療保險(xiǎn)
      降低醫(yī)療保險(xiǎn)拒付率
      上樓梯的學(xué)問
      莲花县| 奎屯市| 万全县| 金乡县| 治县。| 乌兰察布市| 南岸区| 扎鲁特旗| 商洛市| 滁州市| 平舆县| 恭城| 黑河市| 德州市| 锦屏县| 科尔| 静海县| 武义县| 嘉定区| 墨江| 娄烦县| 漳浦县| 绥芬河市| 甘孜| 西城区| 固阳县| 乾安县| 繁昌县| 嵊州市| 娄烦县| 临朐县| 丹凤县| 金阳县| 华宁县| 江北区| 溆浦县| 成武县| 宁国市| 白玉县| 临沂市| 锡林郭勒盟|