• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Python實現(xiàn)的新冠疫情數(shù)據(jù)挖掘案例分析

      2020-02-26 12:37:05聞思源劉慶旺
      上海商業(yè) 2020年12期
      關(guān)鍵詞:數(shù)據(jù)挖掘數(shù)量案例

      聞思源 王 睿 劉慶旺

      0 緒言

      數(shù)據(jù)挖掘是指從大量數(shù)據(jù)中揭示出隱含的、先前未知的并有潛在價值的信息的非平凡過程。在當(dāng)前伴隨信息革命而產(chǎn)生數(shù)據(jù)爆炸的情況下,數(shù)據(jù)挖掘已成為一種非常重要的決策支持方法[1]。數(shù)據(jù)挖掘主要基于數(shù)據(jù)庫、統(tǒng)計學(xué)、可視化技術(shù)、智能自學(xué)習(xí)等數(shù)學(xué)方法,高度自動化地分析數(shù)據(jù),做出歸納性的推理和挖掘潛在模式,從而幫助決策者做出正確的判斷,數(shù)據(jù)挖掘過程由以下三個階段組成:數(shù)據(jù)準備;數(shù)據(jù)挖掘;結(jié)果表達和解釋。

      在《數(shù)據(jù)挖掘技術(shù)》課程的教學(xué)過程中,缺乏具有時效性強的足量數(shù)據(jù)、學(xué)生對于數(shù)據(jù)挖掘理論與實踐相結(jié)合方法論難以建立起系統(tǒng)化概念,對數(shù)據(jù)挖掘結(jié)果難以有效地進行深入析因,這是教學(xué)過程中面臨的主要難點。

      1 案例背景

      2019年底以來,世界各地普遍爆發(fā)了新型冠狀肺炎疫情,波及范圍之廣,損失之大,社會影響之嚴重,近幾百年來前所未有。由于信息技術(shù)的廣泛應(yīng)用,使得此次疫情數(shù)據(jù)非常充分地得到了記錄,并且通過互聯(lián)網(wǎng)進行公開發(fā)布,為本課程的教學(xué)以及管理科學(xué)實踐提供了難得的數(shù)據(jù)基礎(chǔ)、技術(shù)實現(xiàn)平臺和挖掘分析空間。

      針對本次疫情,各個國家和醫(yī)療相關(guān)機構(gòu)都有實時數(shù)據(jù)發(fā)布,如(1)News Break從國際衛(wèi)生組織(WHO)、美國國家健康中心、中國疾病預(yù)防控制中心等權(quán)威發(fā)布機構(gòu)獲得并發(fā)布的疫情數(shù)據(jù);(2)美國約翰.霍普金斯大學(xué)的全球疫情數(shù)據(jù)大屏;(3)中國百度公司根據(jù)國家衛(wèi)生與健康委員會數(shù)據(jù)接口發(fā)布的疫情地圖。通過數(shù)據(jù)探查,從數(shù)據(jù)權(quán)威性、獲取可行性和數(shù)據(jù)完備性角度綜合考慮,決定本案例數(shù)據(jù)源中涉及的國外疫情數(shù)據(jù)采用News Break發(fā)布數(shù)據(jù),國內(nèi)疫情數(shù)據(jù)采用百度疫情地圖數(shù)據(jù)。

      2 案例構(gòu)成要素

      本案例以從2020年初以來開始公開發(fā)布的國內(nèi)外新冠疫情實時更新數(shù)據(jù)作為數(shù)據(jù)基礎(chǔ),以Python3.7及Request、Numpy、Pandas、Matplotlib、Pyecharts、Scikit-learn 等數(shù)據(jù)處理與分析相關(guān)常用包庫作為技術(shù)實現(xiàn)工具,實現(xiàn)數(shù)據(jù)挖掘的基本過程[2-3]。本案例的構(gòu)成要素主要包括以下內(nèi)容:

      (1)網(wǎng)絡(luò)數(shù)據(jù)的爬取。以Request包和作為數(shù)據(jù)爬取基本工具包,調(diào)用其方法獲得網(wǎng)頁源文件,由于數(shù)據(jù)是實時發(fā)布,本案例采用在線爬?。刻於〞r采集)和離線爬?。◤碾x線網(wǎng)頁源文件中分離)兩種方式進行源數(shù)據(jù)獲取。

      (2)源數(shù)據(jù)的解析與清洗。首先通過Pandas包、BeautifulSoup包結(jié)合Python的字典、列表和集合數(shù)據(jù)操作,從網(wǎng)頁源文件中分離出Json格式的疫情數(shù)據(jù)作為原始數(shù)據(jù)源,然后從其中分離出國內(nèi)和國外疫情數(shù)據(jù)項,具體內(nèi)容包括:累積確診數(shù)量、每日新增確診數(shù)量、疑似數(shù)量、重癥數(shù)量、死亡數(shù)量、累積治愈數(shù)量、無癥狀感染數(shù)量、境外輸入確診數(shù)量等,國內(nèi)數(shù)據(jù)精確到地級市,國外數(shù)據(jù)中,美國精確到州和主要城市,其他國家精確到國家;再通過Pandas包中方法對數(shù)據(jù)進行規(guī)范化清洗處理,具體包括:無效值排除、缺失/空值填充、異常值/重復(fù)值處理、更改格式、排序分組等,從而得到適合挖掘分析的規(guī)范全結(jié)構(gòu)化數(shù)據(jù)。

      (3)數(shù)據(jù)基礎(chǔ)統(tǒng)計。利用Pandas包提供的統(tǒng)計學(xué)方法,完成均值、標(biāo)準差、中位數(shù)、分位數(shù)、峰度、偏度、極值等統(tǒng)計運算,從而對各國家和地區(qū)疫情數(shù)據(jù)基于時間窗口做基礎(chǔ)性統(tǒng)計;

      (4)數(shù)據(jù)靜態(tài)可視化。利用Matplotlib包提供的數(shù)據(jù)顯示圖形化方法,利用前述各數(shù)據(jù)項生成絕對指標(biāo)(如各地區(qū)感染總數(shù))和相對指標(biāo)(如感染總?cè)藬?shù)的各地區(qū)構(gòu)成比例、A地區(qū)與B地區(qū)確診數(shù)量比值等)隨時間的數(shù)值變化曲線,通過隨時間的縱向曲線、以地區(qū)為單位的橫向?qū)Ρ鹊葓D形充分從不同角度展現(xiàn)數(shù)據(jù)基本面。

      (5)數(shù)據(jù)動態(tài)可視化。利用Pyecharts包中提供的地圖數(shù)據(jù)和相關(guān)圖形化方法,針對前述的各絕對指標(biāo)和相對指標(biāo),生成時間線輪播多圖、地區(qū)分布圖、地區(qū)熱圖等,從而動態(tài)展示疫情嚴重程度的變化、不同地區(qū)的疫情規(guī)模和發(fā)展趨勢[4]。

      (6)實施數(shù)據(jù)挖掘算法應(yīng)用。利用Scikit-learn包中提供的數(shù)據(jù)挖掘方法,通過回歸分析考察疫情規(guī)模的相關(guān)因素,通過預(yù)測分析考察各項指標(biāo)隨時間的發(fā)展變化趨勢,通過聚類分析考察各地區(qū)疫情狀況的相似性和不同分級[5]。

      (7)數(shù)據(jù)分析。通過前述各指標(biāo)的數(shù)據(jù)統(tǒng)計結(jié)果和數(shù)據(jù)挖掘結(jié)果,站在比較性分析的角度,分別從效率質(zhì)量兩個方面分析中國和美國、中國和歐洲、中國和世界其他國家和地區(qū)在疫情防控方面的差別,并深入挖掘不同效果的社會根源,從而在基于客觀數(shù)據(jù)和科學(xué)挖掘分析的基礎(chǔ)上建立充分的制度自信、文化自信、發(fā)展自信。

      3 小結(jié)

      本案例改變傳統(tǒng)案例側(cè)重于算法解釋,與現(xiàn)實社會和經(jīng)濟問題脫節(jié)嚴重的情況,通過對疫情數(shù)據(jù)統(tǒng)計與挖掘結(jié)果的析因分析,在培養(yǎng)學(xué)生數(shù)學(xué)算法和技術(shù)能力的同時,更加注重數(shù)據(jù)聯(lián)系現(xiàn)實,增強學(xué)生用數(shù)據(jù)挖掘輔助解決管理學(xué)問題的能力。

      猜你喜歡
      數(shù)據(jù)挖掘數(shù)量案例
      案例4 奔跑吧,少年!
      少先隊活動(2021年2期)2021-03-29 05:40:48
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      隨機變量分布及統(tǒng)計案例拔高卷
      統(tǒng)一數(shù)量再比較
      發(fā)生在你我身邊的那些治超案例
      中國公路(2017年7期)2017-07-24 13:56:38
      基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      頭發(fā)的數(shù)量
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      一個模擬案例引發(fā)的多重思考
      我國博物館數(shù)量達4510家
      克山县| 新田县| 盘山县| 扶风县| 磴口县| 凌云县| 克东县| 临朐县| 图木舒克市| 奉贤区| 报价| 抚顺市| 揭阳市| 女性| 五大连池市| 普安县| 马公市| 浑源县| 嵊州市| 黄石市| 开平市| 富民县| 昌都县| 花莲县| 南开区| 永新县| 姜堰市| 平和县| 九龙坡区| 汉源县| 化州市| 泗阳县| 长岛县| 齐齐哈尔市| 乌苏市| 紫金县| 平和县| 温宿县| 安陆市| 乐业县| 松潘县|