• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      空間數(shù)據(jù)挖掘驅(qū)動城市疫情監(jiān)測常態(tài)化的作用研究

      2022-01-12 06:52:34郭名靜
      商業(yè)經(jīng)濟 2022年2期
      關鍵詞:空間數(shù)據(jù)熱點數(shù)據(jù)挖掘

      郭名靜,景 琳

      (1.東華理工大學 理學院; 2.江西應用科技學院 國際商務分院, 江西 南昌 330013)

      發(fā)型傳染病在人類歷史上曾多次出現(xiàn),比如天花、鼠疫、霍亂、甲型 H7N9 流感、SARS(Severe Acute Respiratory Syndrome),以及新型冠狀病毒肺炎(Coronavirus Disease 2019,COVID-19)等,給國家和人民生命財產(chǎn)安全造成了重大損失。雖然國內(nèi)針對COVID-19已經(jīng)取得重要研究成果,形成了卓有成效的疫情防控方案,但隨著全球疫情風險級別的不斷上調(diào),城市疫情監(jiān)測在未來很長一段時間將成為一種常態(tài)化工作。疫情監(jiān)測是預測預警疫情的爆發(fā)并監(jiān)測疫情的發(fā)展和結(jié)束,指在傳染病發(fā)生時,在人、植物或動物中進行的針對傳染病疫情的監(jiān)測,監(jiān)測疫情發(fā)展是獲取感染區(qū)域、規(guī)模、密度、時空分布和流動情況,反饋疫情數(shù)據(jù)給防控部門,協(xié)助部署和協(xié)調(diào)資源,幫助科研人員掌握疫情傳播模式和特點,幫助公眾遠離疫情嚴重場所,科學預防感染。由于疫情監(jiān)測工作既涉及患者和醫(yī)療資源的大量人流,又需要物流分布信息,還具有時間和專題屬性。因此,各種通過傳感器網(wǎng)絡、定位設備和社交網(wǎng)絡獲取的空間數(shù)據(jù)成為當前研究疫情發(fā)展過程和輔助發(fā)現(xiàn)預測潛在疫情的重要戰(zhàn)略資源。

      一、空間數(shù)據(jù)挖掘的研究現(xiàn)狀

      空間數(shù)據(jù)是人們認識現(xiàn)實世界的基礎戰(zhàn)略資源和智慧源泉。信息技術的發(fā)展使對空間數(shù)據(jù)的采集、存儲和處理等技術迅速發(fā)展,使得空間數(shù)據(jù)快速增長,遠遠超出了人們的理解能力。當數(shù)據(jù)積累到一定程度,必然會反映出某些為人所感興趣的規(guī)律,而這些規(guī)律一般隱藏在數(shù)據(jù)深層??臻g數(shù)據(jù)種類多樣,來源復雜,傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)已經(jīng)無法發(fā)現(xiàn)隱藏在數(shù)據(jù)背后的隱性知識,常規(guī)的數(shù)理統(tǒng)計模式停留在空間數(shù)據(jù)的處理階段,只完成了從數(shù)據(jù)到信息的過程,處理的數(shù)據(jù)量十分有限。現(xiàn)有的人工智能和機器學習等技術也都不能獨立的將數(shù)據(jù)最大限度利用,空間數(shù)據(jù)資源中蘊含的最大價值也遠沒有得到充分的挖掘和利用,迫切需要一種能夠?qū)⒋罅繑?shù)據(jù)轉(zhuǎn)換成有用知識的新技術,以解決困擾空間數(shù)據(jù)利用面臨的瓶頸問題。

      1989年召開的第一屆國際聯(lián)合人工智能學術會議(IJCAI)催生了從數(shù)據(jù)庫中發(fā)現(xiàn)知識 (knowledge discovery in database,KDD)的概念,通過知識發(fā)現(xiàn)可以從數(shù)據(jù)庫中獲取知識。因為空間數(shù)據(jù)與空間位置密切相關,所以KDD開始影響空間數(shù)據(jù)的利用。1994年GIS國際學術會議上,李德仁院士首次提出從地理信息系統(tǒng)數(shù)據(jù)中發(fā)現(xiàn)知識的概念,并率先從GIS空間位置數(shù)據(jù)中發(fā)現(xiàn)了用于指導位置空間分析的知識。隨后,空間數(shù)據(jù)挖掘滲入數(shù)據(jù)挖掘、知識發(fā)現(xiàn)以及地球空間信息學等相關學科,越來越引起全球?qū)W者研究和應用的極大興趣??臻g數(shù)據(jù)挖掘可以為基于位置的空間數(shù)據(jù)的應用提供有價值的知識,帶來巨大價值,成為提升國家綜合能力和保障國家安全的新利器,提升政府治理能力的新途徑??臻g數(shù)據(jù)挖掘是一種空間決策支持技術,重在最大限度提升數(shù)據(jù)資源的有效利用能力,實現(xiàn)更為準確的檢測、分析和預測,特高決策的針對性、科學性和可靠性。在疫情防控工作中,空間數(shù)據(jù)挖掘已經(jīng)滲透入多個環(huán)節(jié),特別是在傳染病傳播的測量傳染病的時空分布和模擬驗證傳染病傳播過程兩個階段是最適合空間數(shù)據(jù)挖掘的分析方法,例如,瘧疾分布特征的研究、H7N9疫情流行與環(huán)境因素的相關性研究、霍亂疫情爆發(fā)風險增加的地區(qū)以及SARS疫情監(jiān)控和位置空間信息分析研究等。

      目前,雖然空間數(shù)據(jù)挖掘取得了一定的研究和應用成果,但海量快變和多源高維的特點又給空間數(shù)據(jù)挖掘應用于疫情監(jiān)測帶來了新的挑戰(zhàn)。在此次COVID-19疫情防控期間,“健康碼”技術的應用為政府采集了大量的居民行動軌跡數(shù)據(jù),為常態(tài)化疫情防控工作的開展提供了寶貴的空間數(shù)據(jù)。但是伴隨著“健康碼”的普及,采集的數(shù)據(jù)的數(shù)量、大小和復雜性都在飛速增長,極大超越了常規(guī)的事務型數(shù)據(jù)源,導致數(shù)據(jù)難理解、難整合,限制了對數(shù)據(jù)的全面分析和深度應用的能力。鑒于空間對象種類的多樣性,“健康碼”采集的空間數(shù)據(jù)來源廣泛,每個空間對象基本由多個屬性描述,存在空間或非空間關系,增加了空間數(shù)據(jù)挖掘的維數(shù),帶來了高維數(shù)據(jù)挖掘的困難。這些難點可能直接影響空間數(shù)據(jù)挖掘的準確性和可靠性,影響空間數(shù)據(jù)挖掘的正常發(fā)展。雖然這些問題越來越被重視,并取得了一定的理論方法和實際應用的成果,但是還不夠深入。如果正確解決這些難點,就可能避免利用錯誤信息而得到可靠性較低的、殘缺的,甚至錯誤的知識,就可能避免因為利用錯誤信息而導致的疫情防控決策失誤。

      二、空間數(shù)據(jù)的加權(quán)聚類提取研究

      李蘭娟院士曾多次公開提出要重視大數(shù)據(jù)在疫情防控中的應用。李德仁院士也呼吁建立一個基于位置大數(shù)據(jù)的疫情防控體系,結(jié)合多屬性特征約束挖掘空間位置數(shù)據(jù)中所蘊含的空間模式。這種針對區(qū)域內(nèi)對象位置點群的聚集分布特征的發(fā)現(xiàn)屬于基于空間位置數(shù)據(jù)的城市空間分布模式研究,通過提取相似或相近密度的聚集點,將其與邊界外點區(qū)別識別。一般有兩種識別方法:一類是根據(jù)區(qū)域的指標聚集特性來標識區(qū)域邊界,如均勻格網(wǎng)法;另一類是根據(jù)點群的密度值利用等值線形成邊界。經(jīng)典的基于密度聚類方法 (Density-based clustering algorithm,DBSCAN)可以利用數(shù)據(jù)點群的空間聚類直接提取聚集模式,在處理非規(guī)則凸型的位置數(shù)據(jù)點群時表現(xiàn)出了較好適用性。

      (一)傳統(tǒng)D BSCA N算法

      基于密度的DBSCAN算法可以發(fā)現(xiàn)稀疏數(shù)據(jù)點區(qū)域中的密集數(shù)據(jù)點,該算法利用相似度函數(shù)判定數(shù)據(jù)點的歸屬類,再根據(jù)密度相連原理提取數(shù)據(jù)點的最大集合,也叫做聚類簇。算法中判定數(shù)據(jù)點歸屬的相似度函數(shù)是基于歐幾里得距離(公式1),其中,位置數(shù)據(jù)集中數(shù)據(jù)點的位置坐標為(x,y),其中 i=1,…,n。

      以武漢市中心城區(qū)范圍內(nèi)地理坐標為東經(jīng)114.15°~114.45°,北緯 30.45°~30.7°范圍內(nèi)共計 22843 條新浪微博簽到POI數(shù)據(jù)(表1)為例,每一條POI位置數(shù)據(jù)包含5個屬性,其中,經(jīng)度和緯度坐標共同構(gòu)成了位置數(shù)據(jù)點的地理位置屬性特征,商戶公司名稱、類別和簽到次數(shù)均為位置數(shù)據(jù)點的非地理位置屬性特征。對餐飲和零售行業(yè)高熱點和熱點區(qū)塊進行聚類提取,得到3個餐飲行業(yè)的熱點區(qū)塊,總共包含98個高熱簽到位置數(shù)據(jù)點,簽到次數(shù)共計120361次(表2)。得到3個零售行業(yè)的熱點區(qū)塊,總共包含87個高熱簽到位置數(shù)據(jù)點,簽到次數(shù)共計302915次(表 3)。

      表1 武漢市的新浪微博PO I數(shù)據(jù)集

      表2 餐飲業(yè)熱點區(qū)塊的位置數(shù)據(jù)點統(tǒng)計(基于密度聚類提取)

      表3 零售業(yè)熱點區(qū)塊的位置數(shù)據(jù)點統(tǒng)計(基于密度聚類提取)

      (二)加權(quán)D BSCA N算法

      DBSCAN算法提取的聚類簇只滿足地理位置的高聚集分布,而沒有考慮數(shù)據(jù)點的簽到次數(shù)屬性。因此,對簽到次數(shù)屬性值做變換得到一個按照公式(2)計算權(quán)重系數(shù)的 w,其中 j=1,…,n。

      可見,w取值范圍是(0,+1),且 w取值越接近 +1 說明數(shù)據(jù)點(x,y)的簽到次數(shù)越高,即該點簽到熱度越高,在與簇中心點(x,y)距離相等的條件下,則越可能被劃入簇中。因此,可得加權(quán)DBSCAN算法中相似度函數(shù)的距離計算公式(3)。其中,參數(shù)ω的取值根據(jù)權(quán)重系數(shù)w的取值范圍而定。

      仍然以表2數(shù)據(jù)集為例,動態(tài)加權(quán)聚類算法在餐飲行業(yè)中提取了3個熱點區(qū)塊,總共包含100個高熱簽到位置數(shù)據(jù)點,簽到次數(shù)共計140191次(表4)。提取了3個零售行業(yè)熱點區(qū)塊,總共包含94個高熱簽到位置數(shù)據(jù)點,簽到次數(shù)共計330360次(表5)。

      表4 餐飲業(yè)熱點區(qū)塊的位置數(shù)據(jù)點統(tǒng)計(加權(quán)密度聚類提取)

      表5 零售業(yè)熱點區(qū)塊的位置數(shù)據(jù)點統(tǒng)計(加權(quán)密度聚類提取)

      (三)仿真效果對比分析

      通過對比仿真結(jié)果可以發(fā)現(xiàn),加權(quán)DBSCAN算法提取的高熱簽到點的數(shù)目要多于傳統(tǒng)DBSCAN算法,以簽到次數(shù)作為權(quán)重系數(shù)的加權(quán)DBSCAN算法提取的商戶網(wǎng)點的受歡迎熱度更高。傳統(tǒng)DBSCAN算法只是按照地理位置的距離遠近判定網(wǎng)點是否歸屬聚類簇,無法識別出地處較為偏遠的高熱簽到網(wǎng)點,可能會導致某些明顯的高熱點因為地理位置要素而被傳統(tǒng)算法忽視。而加權(quán)DBSCAN算法由于考慮了非位置屬性,可以避免高熱點的遺漏。例如,表5中零售行業(yè)的關鍵區(qū)塊3是沒有出現(xiàn)在傳統(tǒng)算法的提取結(jié)果表3中,但是區(qū)塊3的數(shù)據(jù)點平均簽到次數(shù)卻高達2688,與地處目標城市中心的區(qū)塊1的平均簽到次數(shù)差不多。因此,加權(quán)DBSCAN算法可以提取更多的高熱度的商戶集群。

      三、加權(quán)的空間數(shù)據(jù)挖掘?qū)σ咔楸O(jiān)測的作用

      (一)熱點區(qū)塊探知對疫情監(jiān)測關鍵區(qū)域探知的支持

      根據(jù)武漢市衛(wèi)生健康委員會2020年5月28日發(fā)布的《武漢市新冠肺炎疫情動態(tài)(2020年5月27日)》數(shù)據(jù),截止2020年5月27日24時,全市累計報告確診病例50340例。其中武漢市中心城區(qū)內(nèi)的江岸區(qū)6563例、江漢區(qū)5242例、硚口區(qū)6854例、漢陽區(qū)4691例、武昌區(qū)7551例、青山區(qū)2804例、洪山區(qū)4718例、東西湖區(qū)2478例。對比加權(quán)DBSCAN算法提取的熱點區(qū)塊空間位置分布情況,不管是在餐飲業(yè)還是零售業(yè),最密集的高熱區(qū)塊正好覆蓋了武漢市主城區(qū)內(nèi)確診病例數(shù)最多的四個行政區(qū),即江岸區(qū)、江漢區(qū)、硚口區(qū)和武昌區(qū)。因此,對空間數(shù)據(jù)挖掘來探知行業(yè)熱點區(qū)塊,能準確發(fā)現(xiàn)疫情可能爆發(fā)或具有高傳播性的關鍵區(qū)域,支持相關部門疫情防控工作的開展。

      (二)多屬性加權(quán)聚類分析對疫情監(jiān)測科學性的支持

      一旦感染區(qū)域分布與疫情實際傳播情況存在偏差,就有可能嚴重影響疫情防控工作的順利開展,甚至會造成人民生命財產(chǎn)的重大損失。因此,要保障城市應對重大疫情的疫情監(jiān)測工作常態(tài)化的順利開展,全面考慮空間數(shù)據(jù)的多個維度才能最大程度準確獲取疫情可能爆發(fā)的重點區(qū)域或感染區(qū)域的空間分布。加權(quán)DBSCAN算法提取的熱點區(qū)塊和高熱點是綜合了空間數(shù)據(jù)的地理位置坐標屬性和簽到次數(shù),考慮了重要的非空間位置屬性可能對判定位置點的分類歸屬的影響,使提取的關鍵區(qū)塊的空間分布模式更科學合理,避免了對某些距離相對較為分散的關鍵高熱點的遺漏。

      (三)基于數(shù)據(jù)驅(qū)動知識發(fā)現(xiàn)對疫情監(jiān)測大數(shù)據(jù)特性的支持

      疫情監(jiān)測工作需要獲取感染區(qū)域、規(guī)模、密度、時空分布和流動情況,發(fā)現(xiàn)疫情可能爆發(fā)的區(qū)域位置。這種空間分布模式的探究需要對數(shù)據(jù)實時處理,而不是事后的問卷調(diào)查和統(tǒng)計分析。疫情監(jiān)測的原始空間數(shù)據(jù)來源多樣、數(shù)據(jù)體積巨大、數(shù)據(jù)量增長速度快速,具有典型的大數(shù)據(jù)特征。聚類分析屬于以數(shù)據(jù)驅(qū)動知識發(fā)現(xiàn)的第四研究范式,相比較傳統(tǒng)的實證研究、統(tǒng)計分析以及問卷調(diào)查等研究方法,直接聚類提取知識的研究方法更適合于具有大數(shù)據(jù)特征的空間數(shù)據(jù)挖掘分析。

      四、結(jié)論

      要保障城市疫情監(jiān)測的常態(tài)化,提高城市對公共衛(wèi)生突發(fā)事件的應對能力,就必須探索對多維的、大體量的空間數(shù)據(jù)的高效處理方法,挖掘疫情傳播的空間分布模式,發(fā)現(xiàn)并預測疫情可能爆發(fā)的重點區(qū)域??臻g數(shù)據(jù)挖掘能夠科學探知城市疫情防控關鍵區(qū)塊或關鍵點,能夠合理指導疫情防控重點區(qū)域的工作部署,還能夠應對未來海量的疫情監(jiān)測大數(shù)據(jù)的處理和分析。通過對空間位置數(shù)據(jù)的直接加權(quán)聚類提取,可以發(fā)現(xiàn)空間數(shù)據(jù)的某些屬性與疫情爆發(fā)和傳播的空間分布模式的必然關系,為城市疫情監(jiān)測常態(tài)化工作實施提供重要科學依據(jù)。

      猜你喜歡
      空間數(shù)據(jù)熱點數(shù)據(jù)挖掘
      熱點
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      熱點
      車迷(2019年10期)2019-06-24 05:43:28
      結(jié)合熱點做演講
      快樂語文(2018年7期)2018-05-25 02:32:00
      基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
      電力與能源(2017年6期)2017-05-14 06:19:37
      元數(shù)據(jù)驅(qū)動的多中心空間數(shù)據(jù)同步方法研究
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
      熱點
      中國記者(2014年6期)2014-03-01 01:39:53
      基于GPGPU的離散數(shù)據(jù)挖掘研究
      基于文件系統(tǒng)的分布式海量空間數(shù)據(jù)高效存儲與組織研究
      丹巴县| 修武县| 社会| 栖霞市| 楚雄市| 泗阳县| 怀宁县| 桂东县| 曲水县| 贺兰县| 岳池县| 炉霍县| 禄丰县| 襄樊市| 通城县| 湘潭县| 黄梅县| 株洲市| 井陉县| 崇文区| 乌拉特后旗| 武平县| 三明市| 柳河县| 乡宁县| 元氏县| 碌曲县| 大英县| 乐平市| 阿荣旗| 安康市| 岳阳县| 旬阳县| 左权县| 宁陕县| 正蓝旗| 余庆县| 白山市| 青岛市| 嘉义县| 广宗县|