• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于形式概念分析的新冠肺炎疫情大數(shù)據(jù)挖掘

      2022-05-10 00:03:04艷,郝飛,馬
      計算機技術與發(fā)展 2022年4期
      關鍵詞:概念分析形式概念

      李 艷,郝 飛,馬 苗

      (陜西師范大學 計算機科學學院,陜西 西安 710119)

      0 引 言

      2019年爆發(fā)新冠肺炎(COVID-19)后[1-2],國內(nèi)外對新冠肺炎反應迅速,一系列針對新冠肺炎的研究隨之展開,但相關研究大多側(cè)重于新型冠狀病毒肺炎的傳播模型、病因病理和治療護理的某一個方面,對于新冠肺炎流行病學特征的研究較少,未充分利用疫情數(shù)據(jù)挖掘出更多的關系和結(jié)論,因此在大數(shù)據(jù)背景下通過數(shù)據(jù)挖掘技術探究新冠肺炎的流行病學特征來進行科學防控具有重要意義。

      形式概念分析[3]是應用數(shù)學和格論的一個分支,它建立在概念和概念層次的數(shù)學化基礎之上。運用形式概念分析的方法,可以探究由屬性(Attributes)和對象(Objects)構(gòu)成的概念(Concept)及其之間的關系[4]。如今,概念格已被廣泛應用于機器學習、圖書情報、軟件工程等領域。Haav提出一種半自動的本體提取與設計方法,從子句中提取形式背景,直接引用概念和層次關系,并通過添加概念和關系得到初始本體[5]。Formic提出了一種基于本體論的方法,用于評估FCA概念之間的相似性[6]。Poelmans等收集關于FCA的文獻信息數(shù)據(jù),運用FCA的可視化能力探索文獻并展示領域研究熱點,并將這一方法擴展至其他領域[7]。

      該文從Wolfram數(shù)據(jù)存儲庫上獲取14 683條病例數(shù)據(jù),針對該數(shù)據(jù)集,首先,基于統(tǒng)計的方法分析了新冠肺炎患者年齡分布情況、性別差異以及主要臨床癥狀,對特殊人群(中老年人和慢性病患者)進行單獨的統(tǒng)計和分析;其次,使用形式概念分析的方法挖掘臨床癥狀病理學潛在模式;然后,從患者的年齡、性別和患慢性病情況3個方面,使用Pearson相關系數(shù)對新型冠狀病毒肺炎進行相關性分析;最后,針對實驗結(jié)果提出相應的防控對策。

      1 相關理論

      1.1 形式概念分析

      1.1.1 形式背景

      形式概念分析是一種可以進行概念數(shù)據(jù)分析和知識處理的數(shù)學方法,它可以通過形式背景構(gòu)造出概念格,挖掘數(shù)據(jù)中隱含的概念以及概念之間的層次關系[8]。

      在形式概念分析中,用三元組K=(G,M,I)來表示形式背景,其中G表示所有對象的集合,M表示所有屬性的集合,I?G×M表示G和M中元素之間的關系構(gòu)成的集合。對于任意g∈G和m∈M,(g,m)∈I,定義對象g和屬性m間的關系,即:對象g擁有屬性m,記作gIm。

      形式背景可以通過交叉表來描述,交叉表中行代表不同的對象,列代表不同的屬性,若某行的對象擁有某列的屬性,則在該行與該列的交叉點添加一個“×”。如表1所示,其中第3行第4列的交叉關系可以描述為對象O2具有屬性A3。

      表1 簡單形式背景

      由表1所示形式背景蘊含的二元關系有:

      1.1.2 形式概念

      定義1:設A是對象集合G的一個子集,定義f(A)={m∈M|?g∈A,gIm}(A中對象共同屬性的集合);相應地,設B是屬性集M的一個子集,定義g(A)={g∈G|?g∈B,gIm}(具有B中所有屬性的對象的集合)。

      定義2:二元組(A,B)是形式背景(G,M,I)上的一個形式概念(Formal Concept),其中A?G,B?M,且滿足f(A)=B,g(B)=A。則稱A是形式概念(A,B)的外延,B是形式概念(A,B)的內(nèi)涵。

      1.1.3 概念格

      定義3:(A1,B1),(A2,B2)是某個背景(G,M,I)上的兩個概念,而且A1?A2(等價于B1?B2),則稱(A1,B1)是(A2,B2)的子概念,(A2,B2)是(A1,B1)的超概念,并記作(A1,B1)≤(A2,B2),關系≤成為概念的層次序(簡稱序)。(G,M,I)的所有概念用這種序組成的集合用B(G,M,I)表示,稱它為背景(G,M,I)上的概念格[9]。

      圖1為上述形式背景所對應的概念格。

      圖1 概念格可視化圖例

      1.2 Pearson相關系數(shù)

      Pearson相關系數(shù)是英國統(tǒng)計學家卡爾·皮爾遜提出的,用來衡量變量間的線性關系[10]。常用希臘小寫字母ρ表示,計算公式如下:

      由上式可知,Pearson相關系數(shù)是協(xié)方差和兩個變量的標準差之比得到的,雖然協(xié)方差能反映兩個隨機變量的相關程度(若X與Y是相互獨立,互不相關的,則二者的協(xié)方差值就是0),但其數(shù)值上受量綱變化的影響很大,因此不能僅依據(jù)協(xié)方差的數(shù)值大小做出變量相關程度的判斷。

      為了消除不同量綱所帶來的影響,于是就引入了相關系數(shù)的概念。當相關系數(shù)為0時,協(xié)方差為0,則變量是相互獨立的;相關系數(shù)為正值時,變量間為正相關;相關系數(shù)為負值時,變量間為負相關;相關系數(shù)的絕對值越大,相關性越強;相關系數(shù)越接近于0,則表示變量相關性越弱。

      2 資料與方法

      2.1 數(shù)據(jù)集描述

      文中數(shù)據(jù)選自Wolfram數(shù)據(jù)存儲庫的開放數(shù)據(jù)集Patient Medical Data for Novel Coronavirus COVID-19(新型冠狀病毒COVID-19的患者醫(yī)療數(shù)據(jù)),收錄數(shù)據(jù)包括患者性別、年齡、臨床癥狀、居住地、患慢性病情況、入院日期等(詳見數(shù)據(jù)集https://datarepository.wolframcloud.com/resources/Patient-Medical-Data-for-Novel-Coronavirus-COVID-19)。

      實驗選取了數(shù)據(jù)集中自2020年2月3日到2020年8月31日的14 683條病例數(shù)據(jù),并選用了年齡、性別、臨床癥狀、是否居住武漢和患慢性病情況共5個字段進行數(shù)據(jù)挖掘。

      由于數(shù)據(jù)集中的部分字段的值存在缺失,針對不同的研究目的,通過確定所需字段、數(shù)據(jù)清洗和篩選后,產(chǎn)生了6個新的、規(guī)模不同的數(shù)據(jù)集,分別用于性別、年齡、臨床癥狀、特殊人群(中老年人和慢性病患者)及基于FCA的分析。

      2.2 采用的方法和步驟

      針對患者性別、年齡、癥狀三類數(shù)據(jù),進行分類統(tǒng)計,利用統(tǒng)計表來描述患者性別、年齡、癥狀分布情況。下面以5條患者數(shù)據(jù)為例,給出基于形式概念分析的過程:

      (1)數(shù)據(jù)預處理。

      從數(shù)據(jù)中抽取患者及其對應癥狀作為研究對象,患者作為對象集合(外延),癥狀作為屬性集合(內(nèi)涵)。

      為了便于區(qū)分對象和屬性,方便記錄,將其抽象為字母加數(shù)字的形式。用p代表病人,如p1,p2,p3,p4,p5。用a代表癥狀,如a1,a2,a3,a4,a5。其中,a1代表咽喉痛,a2代表發(fā)燒,a3代表疲勞,a4代表頭痛,a5代表咳嗽。

      (2)構(gòu)建形式背景。

      一個形式背景可以用一個交叉表表示,不僅能夠直觀展現(xiàn)出對象和屬性的數(shù)量信息,更能直觀反映對象與屬性間的聯(lián)系,即對象所具有的屬性及屬性所依賴的對象。若對象與屬性間存在關聯(lián),則用“×”標記,若不存在關聯(lián),則無標記。

      以部分患者數(shù)據(jù)為例,表2所示的形式背景即可描述每個病人的不同癥狀,“×”表示兩者存在關聯(lián),即病人患有該癥狀,如患者p4表現(xiàn)有a1(咽喉痛)、a4(頭痛)癥狀。從表中可以看出,患者集合p={p1,p2,p3,p4,p5}與癥狀集合a={a1,a2,a3,a4,a5}存在有7個關聯(lián)。

      表2 形式背景舉例

      a1a2a3a4a5p1××p2p3×p4××p5××

      (3)構(gòu)造概念格。

      通過解析數(shù)據(jù),將對象和屬性的數(shù)量及關聯(lián)關系存儲為.cxt文件,隨后通過專門的概念格構(gòu)造算法,導入生成的.cxt文件,產(chǎn)生概念格,對應的Hasse圖實現(xiàn)了數(shù)據(jù)的可視化。圖2所示即為表2對應的概念格。圖中一個節(jié)點代表一條形式概念,每個節(jié)點信息分為兩部分,上部分為屬性(概念的內(nèi)涵),下部分為對象(概念的外延)。

      圖2 概念格

      (4)生成概念。

      通過算法,提取出概念格內(nèi)的信息,將不同結(jié)點間的關系轉(zhuǎn)化為概念進行輸出。由圖2概念格提取出的概念有以下五條,如概念1說明沒有人同時表現(xiàn)出咳嗽、發(fā)燒、咽喉痛、疲勞、頭痛這5種癥狀;概念3說明患者p1、p5都同時具有發(fā)燒和咳嗽癥狀;概念5說明5位患者沒有表現(xiàn)出某個相同癥狀。

      ①({},{a1,a2,a3,a4,a5})

      ②({p4},{a1,a4})

      ③({p1,p5},{a2,a5})

      ④({p3},{a3})

      ⑤({p1,p2,p3,p4,p5},{})

      3 實驗結(jié)果

      3.1 基于統(tǒng)計的新冠疫情臨床分析

      3.1.1 年齡分布

      基于11 978例冠肺炎患者病例繪制的患者年齡分布統(tǒng)計數(shù)據(jù)如表3所示。從表中可知,患者年齡集中在40~60歲,占實驗數(shù)據(jù)的37.46%。20~40年齡段的次之,占比31.13%。

      表3 新冠肺炎患者年齡分布

      新冠肺炎患者年齡從0~100歲不等,主要分布在40~60歲。說明新冠肺炎各年齡段人群普遍易感,其中,中老年人更容易感染。此年齡分布與中國疾病預防控制中心所得結(jié)論基本吻合[11]。分析這兩類人群易感的原因,可概括為:青壯年(20~40歲)室外活動、乘坐公共交通工具外出工作的頻率更高,發(fā)生聚集的時間長,幾率大,接觸并感染新冠病毒的風險升高。而中老年人因自身免疫力相對低下,常患有基礎性疾病,抵抗病毒入侵的能力相對較弱,故患病幾率更高。

      3.1.2 患者性別分布

      在對14 683例新冠肺炎患者進行性別分布統(tǒng)計后可知,患者中男性有8 993人,占實驗數(shù)據(jù)的67.3%,女性患者有5 690人, 占實驗數(shù)據(jù)的32.7%。男性患病比例明顯高于女性。

      有研究認為,新冠肺炎在患者中的性別分布差異,可能是男性吸煙率較女性高所導致的[12]。然而,在文章中作者同時表示,現(xiàn)階段沒有足夠證據(jù)證實吸煙率與患病率之間存在聯(lián)系,也無法得出確切結(jié)論。未來隨著研究群體的擴大、樣本數(shù)據(jù)的增加,可以更科學地對新冠肺炎患者性別分布進行分析。

      3.1.3 患者臨床癥狀分布

      表4為基于統(tǒng)計方法得出的1 641例新冠肺炎患者臨床癥狀分布數(shù)據(jù),患者主要以呼吸道癥狀為主,消化系統(tǒng)癥狀不明顯,主要癥狀(百分比>3%)包括發(fā)燒、咳嗽、肺炎、咽喉痛、疲勞、頭痛等。其中發(fā)燒和咳嗽是最為常見的癥狀,發(fā)燒患者共有1 004人,占樣本總數(shù)的61.18%。這個結(jié)果與鐘南山院士團隊近期基于1 099例患者的大樣本研究結(jié)果一致[13]。

      表4 新冠肺炎患者臨床癥狀分布

      3.2 基于形式概念分析的臨床癥狀模式分析

      3.2.1 癥狀規(guī)律研究

      表5為基于形式概念分析理論得出的患者臨床癥狀規(guī)律,從表中可以看出不同癥狀間的關聯(lián)性。(1)在發(fā)燒的情況下,出現(xiàn)咳嗽癥狀的概率最大,大約為61.18%;(2)部分人會出現(xiàn)咽喉痛、肌肉疼痛的癥狀,占比分別為34.37%和9.02%。

      表5 患者臨床癥狀規(guī)律

      3.2.2 特殊人群癥狀研究

      目前已知新型冠狀病毒肺炎的易感原因主要是身體機能下降和免疫力的低下,由此導致對應人群面對新型冠狀病毒時,病情進展相對更快、嚴重程度更高。于是針對免疫力低下的老年人和慢性病患者,進行了單獨研究,挖掘這兩類群體的臨床特征。

      表6為484例老年人患者臨床癥狀分布數(shù)據(jù),除去肺炎、咳嗽、發(fā)燒等常見癥狀,老年人還容易表現(xiàn)出急性呼吸窘迫綜合征、急性呼吸衰竭等病癥。從結(jié)果來看,老年新冠肺炎患者感染后更容易發(fā)展成重癥和危重癥。

      表6 老年人患者臨床癥狀分布

      表7為151例慢性病患者臨床癥狀分布數(shù)據(jù),除去肺炎、咳嗽、發(fā)燒等常見癥狀,慢性病患者還會表現(xiàn)出急性呼吸窘迫綜合征、急性呼吸衰竭、敗血性休克等病癥。

      表7 慢性病患者臨床癥狀分布

      3.3 新冠肺炎相關性分析

      根據(jù)Pearson相關系數(shù)計算不同變量與患病的相關性,繪制相關性熱力圖,如圖3所示(相關性越高,顏色越深)。

      圖3 相關性分析

      從圖3來看,年齡與染病相關性最為密切。年齡與感染新冠的相關系數(shù)為0.29,是最大值。慢性病與感染新冠的相關系數(shù)為0.069,僅次于前者。

      分析相關性背后的原因,由于老年人大都免疫力低下,免疫反應不夠靈敏,和其他年齡群體相比,更容易被感染。而患有基礎性疾病的人,健康脆弱性更高,也更易感染新冠肺炎。此外,對于患有慢性病的個體,感染新冠后治療難度大,容易導致病情的惡化。因此老年人和慢性病患者做好居家隔離,減少接觸病毒的可能性十分重要。

      3.4 對策分析

      通過對新冠肺炎患者臨床癥狀的挖掘,對實驗結(jié)果進行分析后,可以得出以下結(jié)論:

      (1)新冠肺炎各年齡段人群普遍易感,其中老年人和患有糖尿病、心臟病等基礎疾病的個體感染的風險可能增加。

      (2)新冠肺炎患者多是以咳嗽、發(fā)熱為其主要癥狀,大多數(shù)輕癥患者可能僅有發(fā)熱和全身乏力,而無明顯的肺炎表現(xiàn);而重癥患者可能發(fā)生胸悶氣促,甚至呼吸困難等急性癥狀。

      (3)新冠肺炎感染程度與患者的年齡以及是否患有基礎性疾病有關。年齡大或患有基礎性疾病的個體,感染新冠肺炎后,病情可能會越嚴重。

      目前國內(nèi)疫情基本穩(wěn)定,但其他國家情況不容樂觀,尤其隨著國內(nèi)入境政策的放寬、人口流動加大,潛在威脅也隨之而來?;谠撐牡难芯拷Y(jié)論,提出以下防控建議:

      (1)加快推進疫苗接種工作;高風險人群優(yōu)先種,如慢性病患者、身體狀況不佳的中老年人,以及冷鏈物流人員、海關邊檢人員、醫(yī)療疾控人員和公共交通的工作人員等。

      (2)加強疾病預防控制體系現(xiàn)代化建設,提升地方公共衛(wèi)生系統(tǒng)的有效性,從上到下形成健全的醫(yī)療服務網(wǎng),發(fā)展和實施廣泛的健康促進戰(zhàn)略[14]。

      (3)將心理危機干預作為疫情防控體系的一個重要環(huán)節(jié),加強心理干預和疏導,打贏疫情防控心理戰(zhàn)[15]。

      (4)重視入境人員檢測,把好“輸入”關,阻斷病毒傳染鏈。

      對于普通民眾,每位公民都有義務、有責任積極響應國家號召,及時接種新冠疫苗,做到“應接盡接”,構(gòu)建全民免疫屏障,阻斷新冠病毒傳播,同時做好個人防護的常態(tài)化,如戴口罩、勤洗手、少聚餐等。

      4 結(jié)束語

      基于形式概念分析的理論基礎,以疫情背景下的新冠肺炎患者醫(yī)療數(shù)據(jù)為研究對象,通過研究開源的數(shù)據(jù)資料,在患者癥狀的基礎上,建立“患者—癥狀”的形式背景,生成對應概念格,產(chǎn)生概念,分析新冠肺炎的病例特征,為新冠肺炎知識的檢索和可視化展示奠定基礎。另一方面,通過對新冠患者臨床數(shù)據(jù)進行統(tǒng)計,掌握了新冠肺炎的部分規(guī)律,可以為有效防控新冠肺炎提供參考和判斷依據(jù)。

      但是,在數(shù)據(jù)挖掘方面仍有欠缺——部分類型的病例數(shù)量不足。如慢性病患者僅有151例,可能會導致實驗結(jié)果偏向于那些具有更多數(shù)值的特征。此外,兒童甚至嬰幼兒也有感染,對于抵抗力低下的兒童,臨床癥狀又會有何不同,這是實驗中未涉及到的。下一步工作中,將擴大研究范圍,將新冠肺炎數(shù)據(jù)分析覆蓋到更多患者群體。此外,構(gòu)建新冠肺炎知識圖譜,融合已挖掘的新冠肺炎特征知識,使所得數(shù)據(jù)得到充分利用也是我們接下來的研究方向。

      猜你喜歡
      概念分析形式概念
      科幻與科普的關系:基于歷史文獻和概念分析的討論
      科學與社會(2023年4期)2024-01-11 08:07:46
      Birdie Cup Coffee豐盛里概念店
      幾樣概念店
      小議過去進行時
      微型演講:一種德育的新形式
      學習集合概念『四步走』
      聚焦集合的概念及應用
      搞定語法填空中的V—ing形式
      發(fā)現(xiàn)“形式” 踐行“形式”
      “有無對比法”在經(jīng)濟評價中的運用及相關概念分析
      剑川县| 张家港市| 武陟县| 本溪| 双鸭山市| 黔江区| 漳平市| 天门市| 南皮县| 安福县| 吴旗县| 九龙坡区| 璧山县| 塔河县| 五大连池市| 阿城市| 天峨县| 定州市| 交城县| 比如县| 石狮市| 河北省| 唐河县| 舒兰市| 新巴尔虎右旗| 昭觉县| 湘阴县| 藁城市| 内乡县| 榆社县| 迁西县| 佛坪县| 密云县| 朝阳市| 集贤县| 德化县| 太保市| 黄梅县| 合水县| 客服| 清涧县|