摘?要:突發(fā)性群集性傳染性疫病,對人體生命安全和社會經(jīng)濟穩(wěn)定都造成了巨大威脅;還有一些如高血壓、類風(fēng)濕性關(guān)節(jié)炎、微量元素缺乏癥等慢性病癥,與患者地理分布、飲食習(xí)慣等密切相關(guān)。傳統(tǒng)的傳染病與地域性慢性疾病十分依賴醫(yī)務(wù)人員的實際經(jīng)驗與敏感程度。因此亟需開發(fā)一種能夠?qū)崿F(xiàn)群集性疾病軌跡追蹤的風(fēng)險評估分析算法,及時發(fā)現(xiàn)可疑患者集聚人群有利于及早的采取應(yīng)對措施,最大程度減輕這類疾病對社會造成的影響。
關(guān)鍵詞:數(shù)據(jù)分析;群集性疾病;軌跡追蹤;異常報警
1概述
群集性感染性疾病如嚴重急性呼吸綜合征(SARS)、甲型HIN1流感等的大面積爆發(fā),對人類生命安全與社會經(jīng)濟穩(wěn)定構(gòu)成了極大威脅。國家衛(wèi)生健康委副部級機關(guān)——國家疫病預(yù)防控制總局在印發(fā)的《關(guān)于做好2021-2022年流行季流感防控工作的通知》中,從加強疫病監(jiān)控預(yù)警與數(shù)據(jù)分析的研究、從加強流感疫苗供應(yīng)與調(diào)撥管理和疫苗數(shù)據(jù)的信息化管理、統(tǒng)籌醫(yī)療資源規(guī)范開展救治等七個方面強調(diào)了流感防控的措施。其中重點強調(diào)了信息系統(tǒng)的作用。充分發(fā)揮了信息系統(tǒng)在追蹤全國流感疫情動向,加強了流感活動強度等的監(jiān)控管理工作,增強了流感檢測敏感性與準確率等方面的功能;發(fā)揮信息系統(tǒng)在疫苗信息報告、疫情調(diào)撥和流向信息等方面的關(guān)鍵功能,提升疫情管理水平。
一些慢性病癥,如急性高血壓、類風(fēng)濕性關(guān)節(jié)炎、微量元素缺乏癥等,與患者地理分布、飲食習(xí)慣等密切相關(guān),我國每年花費大量的人力物力用于群集性疾病與慢性疾病的防治。通過臨床工作實踐中可以發(fā)現(xiàn),傳統(tǒng)的傳染病監(jiān)測極度依賴于醫(yī)務(wù)人員對這些疾病的敏銳性和警覺性,而且也只能針對能診斷明確的傳染病。事實上,對那些急性傳染病尤其是不明原因的傳染病要做出及時發(fā)現(xiàn)和判斷,最大程度化解公共衛(wèi)生風(fēng)險十分依賴于臨床及早識別和發(fā)現(xiàn)患者。其中,及早識別出發(fā)病人群具有聚集性的特點具有十分重要的流行病學(xué)意義和社會意義;同樣,對于慢性疾病的管理以及某些地方病的流行狀況監(jiān)測也都依賴于一定物理空間區(qū)域內(nèi)患者群集性狀態(tài)的自動識別。因此,這種對群集性早期預(yù)警與風(fēng)險等級評價,無論對急慢性傳染病、慢性病管理均具有重要的臨床意義。通過開發(fā)能夠?qū)崿F(xiàn)群集性疾病軌跡追蹤的風(fēng)險評估分析算法,及時發(fā)現(xiàn)可疑患者集聚人群有利于及早的采取應(yīng)對措施。
另外,報告顯示,數(shù)字賦能智慧醫(yī)療已成為主流趨勢,大數(shù)據(jù)分析也將在疾病監(jiān)控、輔助決策、健康管理等領(lǐng)域發(fā)揮重要作用,而NB-IoT+物聯(lián)網(wǎng)芯片等融合應(yīng)用,也將彌補傳統(tǒng)醫(yī)療設(shè)備的缺點,成為移動醫(yī)療設(shè)備的標配。在平臺層,云計算、大數(shù)據(jù)、人工智能、區(qū)塊鏈等技術(shù)將推動醫(yī)療信息化及遠程醫(yī)療平臺改造升級。
2021年12月28日,由工信部聯(lián)手我國衛(wèi)生部門保健委、我國發(fā)展改革委等部門和有關(guān)單位共同頒布的《"十四五"醫(yī)藥裝備產(chǎn)業(yè)健康發(fā)展計劃》于二十八日對外公開發(fā)布。當中明確提出,推進智慧醫(yī)藥技術(shù)裝備健康發(fā)展。要求進一步利用計算機技術(shù)進行智慧診斷,以提高我國對老年人的醫(yī)療健康信息技術(shù)服務(wù)保障能力,計劃中同樣作出了戰(zhàn)略部署。
總之,三個方面決定了本文章提出方法的意義。一是社會防疫需求,突發(fā)性群集性傳染性疾病,如SARS、甲型HIN1流感、新冠肺炎等的大面積爆發(fā),對人類生命安全與社會經(jīng)濟穩(wěn)定構(gòu)成了極大威脅;二是慢性疾病需要進行防治,某些慢性疾病,如高血壓、微量元素缺乏癥等,與患者地理分布、飲食習(xí)慣等密切相關(guān)。我國每年花費大量的人力物力用于相關(guān)疾病的防治。三是老齡化的越來越嚴峻,隨著老齡化程度提高,未來我國老年人數(shù)將逐步上升。老齡化的增加將造成老年人群體醫(yī)藥、護理需求量的大幅增加,醫(yī)療行業(yè)亟需升級。
本文提出了一種群集性/慢性疾病早期自動報警、初步特征分析方法,其特征在于包括活動軌跡追蹤模塊、自動報警展示模塊;運用算法對醫(yī)療機構(gòu)病歷數(shù)據(jù)庫的定時掃描,結(jié)合患者個體行動軌跡的分析,能夠?qū)Τ霈F(xiàn)的突發(fā)群集性疾病實現(xiàn)自動報警,避免目前因人工上報造成的防控遲滯,為重大突發(fā)群集性疾病爭取到寶貴的防控時間。
2方法分析
2.1活動軌跡追蹤模塊
利用患者使用的可公布、共享的定位方式,或與移動通訊運營商協(xié)議,經(jīng)主管部門允許,通過病人手機終端獲得患者物理空間GPS定位信息,自動對預(yù)設(shè)地區(qū)就診人群在特定時間段內(nèi)具有相同患者活動軌跡的特定事件進行群集性分析,包括活動軌跡提取及聚類分析?;顒榆壽E追蹤模塊工作時,包括如下步驟。
2.1.1活動軌跡獲取
利用帶有定位功能的智能穿戴、移動設(shè)備獲取速度、方向、位置和時間戳四維信息,同時對冗余軌跡數(shù)據(jù)進行壓縮。軌跡數(shù)據(jù)由一系列的數(shù)據(jù)點構(gòu)成,用表示;具體步驟如下。
步驟一:利用滑動窗口W和均值技術(shù)從軌跡數(shù)據(jù)中濾除噪點,得到處理后的數(shù)據(jù)點集;
步驟二:對上述數(shù)據(jù)點集進行停留點檢測,所述停留點是指具有代表性的數(shù)據(jù)點,使數(shù)據(jù)點集就變成有意義的地方集;
首先,檢測定位點pi'與其后繼點pi+1'間的距離,有無超過給定閾值的軌跡;然后,用它檢測所定位點與距離閾值范圍內(nèi)的最后一次后繼pk'之間的時間間隔;如果時間間隔超過了給定的距離閾值,則該定位點為停留點;最后從pk'的后繼點迭代檢查,直到所有數(shù)據(jù)點集檢查完;
步驟三:進行軌跡壓縮;在步驟二獲得的數(shù)據(jù)點集的基礎(chǔ)上,采用道格拉斯-普克算法進行壓縮,過程如下:
a.把曲線的首末點連成一個平行直線,可以求得曲線上每個點到直線的垂直間距,并找出最高間距值dmax;
b.用dmax與預(yù)設(shè)的閾值D相比較時,若dmax c.否則,必須保留dmax對應(yīng)的位置點,并以該點為界,將曲線劃為兩部分,再重復(fù)以上過程,直至所有dmax均小于D,如此即實現(xiàn)對曲線的壓縮; d.當每個曲線都處理完畢時,順序銜接每個分割節(jié)點而產(chǎn)生的折線,即為原始曲線的路徑。 2.1.2活動軌跡數(shù)據(jù)分析 通過對資料預(yù)處理后軌跡數(shù)據(jù)處理,分析并提取有價值的信息,通過時空環(huán)境中事故調(diào)查、群體監(jiān)控;發(fā)現(xiàn)頻繁時序模式,利用公眾性規(guī)律或公眾性的頻繁路徑,實現(xiàn)地點預(yù)測、病員相似性預(yù)測;通過周期性的活動行為,預(yù)測病員未來的行為;具體步驟如下: 步驟一:先進行軌道相似性度量,通常用一個距離函數(shù)來進行;首先,界定點和軌道中間的一致性,假定點q和軌道A相同,q和A間的一致性通常界定如下: P'的運動軌跡在A上和d(.)測量間距最小的地點;在推算二點間距時,通常使用L-P范數(shù),或歐氏距離,切比雪夫距或曼克頓間距等計算方法測量間距; 如使用切比雪夫距離:在兩個n維矢量a(x11,x12,…,x1n)與b(x21,x22,…,x2n)間的切比雪夫距離為, 接著,通過計算DTW距離來確定軌跡與軌跡的相似性,DTW距離如下: h,r為軌跡A,B的長度; 給定軌跡A<a1,a2,...an>和軌跡B<b1,b2,...bm>,Head(A)表示a1,Rest(A)表示<a2,a3...an>。 步驟二:對軌跡進行聚類,并分析公共規(guī)律行為;采用的密度最大值聚類算法MDCA,其核心步驟是: a.將數(shù)據(jù)組分割為基本簇,對數(shù)據(jù)集中選擇較大的密度點pMax,再根據(jù)間距排列得出SpMax;然后對數(shù)據(jù)序列的前m個樣本數(shù)量加以判定,假設(shè)對象密度等于或超過density0,則把當前對象加入到基本簇Ci中;從數(shù)據(jù)集合剔除Ci中隱含的所有對象,并管理剩余的數(shù)據(jù)集合,選擇最高密度點pmax’,并建立基本群Ci+1;如此循環(huán)操作,直至所有數(shù)據(jù)集合剩余對象的最高密度系數(shù)均等于density0。 b.通過凝聚層次聚類的思想,結(jié)合距離最近的基本簇,得到最終的簇劃分,在簇中選取相距最近的兩個簇加以合并;合并條件為:簇間距小于等于dist0;若每個簇與簇間距小于dist0,終止合并操作。 c.處理剩余點。如保留噪聲:則掃描各個殘余對象,將其中與某些簇距離小于或等于dist0的對象歸入其中的間距最近的簇;與任何簇的間距均等于的dist零的對象作為噪音。假設(shè)不保持噪音:則將任何剩余對象都劃給相距最近的簇。 2.2自動報警展示模塊 通過預(yù)先設(shè)定的掃描病情相關(guān)參數(shù)、掃描時間和空間半徑對聚集性、群體性發(fā)生的事件進行自動分析顯示并實時報警;達到預(yù)先設(shè)定的群集性標準時,自動報警生成并存檔目標病例的統(tǒng)計表,同時自動在當?shù)氐貓D中直觀標注發(fā)病地點.自動報警展示模塊工作時,按如下步驟進行。 步驟一:進行病例特征數(shù)據(jù)分析,在系統(tǒng)展示屏幕上選擇需要監(jiān)控的流行性疾病,通過GPS地圖展示其歷史數(shù)據(jù)以及趨勢,并通過海量病例分析模塊得到相關(guān)特征數(shù)據(jù),包括時空相關(guān)特征。 步驟二:閾值自動報警,通過醫(yī)療專家的從醫(yī)經(jīng)驗,預(yù)先設(shè)置病例異常的條件和病例數(shù)異常閾值,以此分析所采數(shù)據(jù),判斷特征數(shù)據(jù)是否達到預(yù)設(shè)觸發(fā)條件,如果達到預(yù)設(shè)觸發(fā)條件,則自動化報警,可使用t檢驗法,格拉布斯檢驗法,狄克遜檢驗法費明細數(shù)據(jù)異常,過程如下: a.用Dixon法分析數(shù)據(jù)的異常狀態(tài),設(shè)樣本為,其順序統(tǒng)計量為:x(1)<x (2)<…<x (n); b.其中x(1)為最小,x(n)為最大,當序列統(tǒng)計變量x(i)滿足正態(tài)分配時,Dixon提供了對各種樣本總量為n時統(tǒng)計變量D的運算公式; c.當顯著水平α為0.05或0.01時,Dixon就給予了其臨界值D1-α(n); d.如果某樣本的統(tǒng)計量D>D1-α(n),則x(n)為異常值,如果某樣本的統(tǒng)計量D′> D1-α(n),則x(1)為異常值,否則為正常值。 3結(jié)語 實現(xiàn)群集性疾病的早期識別預(yù)警具有重要的實際意義。通過本方法對患者相關(guān)信息的不同字段的設(shè)定、抓取,結(jié)合就診前特定時段內(nèi)GPS定位個體行動軌跡分析,能夠?qū)崿F(xiàn)對單位時間內(nèi)目標病例空間分布特征的分析,初步分析提取突發(fā)群集性疾病空間分布特征、單位面積內(nèi)數(shù)目、疾病發(fā)生的強度等信息;同時還可應(yīng)用于類風(fēng)濕性關(guān)節(jié)炎、微量元素缺乏癥等慢性病的防治。通過對其進行初步特征分析與風(fēng)險評估,衛(wèi)生醫(yī)療能夠及早制訂應(yīng)對預(yù)案,達到提高群集性/慢性疾病群防群控的效果和目的。 參考文獻 [1]楊秀璋,李曉峰,袁杰,李坤琪,楊鑫,羅子江.一種融合語義知識和BiLSTM-CNN的短文本分類方法[J].計算機時代.2021,(11):49-54. [2]陸妍玲,韋晶閃,趙雨萌,周俊芬,李景文,姜建武.提取熱點區(qū)域的時空軌跡數(shù)據(jù)聚類分析[J].數(shù)學(xué)的實踐與認識.2021,51(13):129-138. [3]石鳳貴.基于jieba中文分詞的中文文本語料預(yù)處理模塊實現(xiàn)[J].電腦知識與技術(shù).2020,16(14):248-251. [4]楊秀璋,李曉峰,袁杰,李坤琪,楊鑫,羅子江.一種融合語義知識和BiLSTM-CNN的短文本分類方法[J].計算機時代. 2021,(11):49-54. [5]陶洋,鄧行,楊飛躍,潘蕾娜.基于DTW距離度量的層次聚類算法[J].計算機工程與設(shè)計.2019,40(01):116-121. [6]王 晶,夏魯寧,荊繼武.一種基于密度最大值的聚類算法[J].中國科學(xué)院研究生院學(xué)報.2009,26(04):539-548. 作者簡介: 蔣皓宇,男,生于2001年8月,漢族,江蘇淮安人,揚州大學(xué)本科在讀,計算機科學(xué)與技術(shù)專業(yè)。 基金項目:本文系江蘇省大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計劃項目,項目編號:202111117113Y